一、经验误差与过拟合
错误率:分类错误的样本数占样本总数的比例;精度=1-错误率
训练误差(经验误差):学习器在训练集上的误差;泛化误差:学习器训练之后,在新样本上的误差
过拟合:学习器把训练样本学习的“过好”,导致泛化能力下降。欠拟合:学习器尚未学好训练样本的一般性质。
二、评估方法
以下四种方法可以有效地从一个数据集中分出训练集(S)和测试集(T)。注意:①训练集应该尽可能与测试集互斥②训练集和测试集的划分应尽可能保持原数据分布的一致性。
1.留出法:一般采用若干次随机划分、重复进行实验评估后取平均值作为评估结果。
2.交叉验证法:将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布一致性,即从原数据集上分层采样得到。每次用k-1个子集的并集作为训练集,余下的子集作为测试集。从而进行k次训练和测试,最终返回k个测试结果均值。
留一法:每次只留下一个样本作为测试,其他样本作为训练(优点:因为只留下一个作为测试,所以实际评估模型与期望用全部数据训练得到的模型相似;缺点:数据量较大时开销较大)
3.自助法:给定m个样本的数据集D,从中可重复性采样生成新的数据集D‘,D’作为训练集,D\D'作为测试集(优点:在数据集较小,难以划分训练集/测试集时有用;缺点:改变原始数据分布,会引入偏差)
三、性能度量
1.错误率:分类错误样本数占样本总数的比例;精度:分类正确样本数占样本总数比例。
2.查准率P:“检索的信息中有多少比例是用户感兴趣的”;查全率R:“用户感兴趣的信息有多少被检索出来”
这两个量一般是一对矛盾的度量。F1度量:F1=2*P*R/(P+R)
3.ROC和AUC
如何计算请见 https://blog.csdn.net/tanzuozhev/article/details/79109311
4.代价敏感错误率:主要是为权衡不同类型错误所造成的不同损失
四、比较检验
1.假设检验
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
2.交叉验证t检验
3.McNemar检验
4.Friedman检验和Nemenyi后续检验
五、偏差和方差
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画学习算法本身拟合能力。
方差度量了同样大小的训练集变动所导致的学习性能变化,即刻画数据扰动造成的影响。
噪声表达在当前任务上任何学习算法能达到期望泛化误差的下界,即刻画学习问题本身难度。
泛化误差可分解为偏差、方差和噪声之和。