【机器学习-西瓜书】第2章-模型评估

wayaya112

已于 2022-03-21 15:19:49 修改

阅读量1.6k

点赞数

文章标签：机器学习

于 2022-03-20 17:21:18 首次发布

本文链接：https://blog.csdn.net/wayaya112/article/details/123610377

版权

本文介绍了模型评估的重要性和常用方法，包括留出法、交叉验证、自助法和最终模型的选择。此外，还讨论了评估指标如错误率、精度、查准率、查全率、F1-score、ROC和AUC，以及如何衡量模型的偏差与方差，以理解模型的泛化能力。

摘要由CSDN通过智能技术生成

2.1 经验误差与过拟合

$\left ( 1- \tfrac{a}{m}\right )\times 100%$ （假设m个样本中有a个样本分类错误）

误差 (error): 学习器的预测输出与真是输出之间的差异
- 经验误差 (empirical error)：在训练集上的误差
- 泛化误差 (generalization error):在新样本上的误差
欠拟合和过拟合

underfitting：对训练样本的一般性质尚未学好
- 欠拟合通常是由于学习能力低下造成的；
- 比较容易解决：在决策树中扩展分支；在神经网络中增加训练轮数
overfitting：学习过于细节，将训练样本自身的某些特点当作所有潜在样本均具备的一般性质，导致泛化能力弱。
- 机器学习面临的关键障碍

现实任务中，当进行模型选择时，理想的解决方案是对候选模型的泛化误差进行评估，然后选择泛化误差最小的模型。

然而，正如上面所讨论的，我们无法直接获得泛化误差，且训练误差又由于存在过拟合现象，因而不适合作为标准。

通常，通过实验测试对学习器的泛化误差进行评估，并依此选择模型。以模型在测试集上的测试误差作为泛化误差的近似。假设测试样本是从样本真是分布中独立同分布采样而得，且测试集和训练集互斥。以下介绍几种常见的产生训练集S和测试集T的方法：

直接将数据集D划分为两个互斥的集合，划分时尽可能把持数据分布的一致性，避免因数据划分过程引入的额外偏差而对最终的结果产生影响。
保留类别比例的采样方式称为“分层采样 (stratified sampling)”
由于对初始数据集有着不同的划分方法，将导致不同的训练/测试集，此时模型评估的结果也会有差别，因此单次使用留出法得到的估计结果往往不够稳定。因此一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

关注