模型评估与选择
经验误差与过拟合
经验误差(empirical error/training error):训练集上的误差
泛化误差(generalization error):新样本上的误差
训练目标:不是使得经验误差最小,而是希望泛化误差最小
过拟合:自身特点当作一般性质
- 学习能力过于强大
- 无法避免,尽量减少
欠拟合
评估方法
困境:无法直接得到泛化误差,经验误差存在过拟合现象
解决方法:构造测试集,将测试误差作为泛化误差的近似
测试样本与训练样本应不一样
挑选测试集和训练集的方法
留出法
- 互斥集合
- 保持原数据分布一致性,避免因数据划分引入偏差——分层抽样
- 划分方式多样,采用若干次随即划分、重复实验取平均
- 训练集过多:评估结果不准确;训练集过少:与真实模型有较大差别
- 2/3-4/5数据作为训练集
交叉验证法
- 划分k个大小子集。k-1训练集,k测试集
- 划分样本方式多样。常用10次10折交叉验证
- 留一法是交叉验证法的特例。无划分方式的影响,评估结果比较准确;计算量太大
自助法
- 减少因样本规模不同造成的偏差
- 新数据集D’的样本量与原数据集一样,有放回抽样
- 36.8%的数据没有在D’中出现,用于测试——包外估计
- 适用于数据量小,难以划分训练集和测试集
###调参与最终模型
调参:目的是选择出最优模型。常见做法是对参数设置变化范围和步长
训练数据划分为训练集和验证集
验证集用于进行模型的选择和调参
测试集用于估计泛化误差
性能度量
评估:依赖于评估方法和评价标准(性能度量)
分类任务终的性能度量
错误率与精度
查准率、查全率与F1
- 查准率P与查全率R是一对矛盾的度量
- P-R图中完全包住的曲线性能较好/平衡点较大的曲线性能较好
- F1是基于P与R的调和平均,重视较小值
- 区分宏P/宏R与微P/微R