1.概念
错误率:错误分类的样本数占样本总数的比例
精度:1-错误率,即正确分类的样本数占样本总数的比例
经验(训练)误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
过拟合:学习器在训练集上效果太好,而在新样本上的效果较差的现象。
模型选择:不同学习算法或者相同的学习算法,当使用不同的参数配置时,会导致不同的模型。模型选择是针对参数配置的选择。一般选择泛化误差最小的模型。
2.评估模型泛化误差的方法
留出法:将数据集分为两个相斥集合,一个作为训练集,一个作为测试集,用测试集来评估其测试误差,作为对模型泛化误差的估计。需要注意的是:数据集划分时注意保持数据分布的一致性。
(k折)交叉验证法:将数据集分为k个大小相似的数据集合,每个数据集尽可能的保持数据分布的一致性。取k-1个集合数据作为训练集,剩下的作为测试集。分别进行k组训练和测试,返回k个测试结果的均值。
3.评价标准
错误率与精度、查准率(precision)、查全率(recall),F1度量,ROC与AUC曲线
以西瓜判别为例:其真实的类别与学习器预测的类别组合可分为以下四种
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | TN(假正例) | TN(真反例) |
查准率指p定义为,即西瓜中判别正确的西瓜的比例,查全率R定义为:
,即真实西瓜中,有多少比例被预测出来了。真实情况中,查准率和查全率是一对矛盾体。
F1度量是根据查准率和查全率的调和平均值定义的:,宏F1是指在各个混淆矩阵上分别计算出查准率与查全率,然后计算平均,最后得到macro-F1;微F1是指各个混淆矩阵对应的元素取平均,得到TP、TN、FN、TN在基于这些平均值计算得到micro-F1。总结起来就是,macro-F1是先求值后平均,micro-F1是先平均后求值。
ROC与P-R图相似,不同是ROC的纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR),两者定义为:。与P-R图相似,若ROC曲线被另一个学习器的ROC曲线完全包住,则后者对应的学习器的性能优于前者,或者比较曲线包围的图形面积大小即AUC(Area Under ROC Curve),评判学习器的好坏。
4.偏差与方差
,
泛化误差=偏差+方差+噪声之和