第2章模型评估与选择

最新推荐文章于 2022-09-21 10:37:26 发布

小韩学长

最新推荐文章于 2022-09-21 10:37:26 发布

阅读量610

点赞数

分类专栏：机器学习篇（周志华西瓜书）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39036700/article/details/87890952

版权

本文详细介绍了模型评估的几种方法，包括经验误差、过拟合与欠拟合的概念，以及留出法、交叉验证法、自助法在评估中的应用。重点讨论了性能度量，如错误率、精度、查准率、查全率、F1值和ROC曲线，以及如何通过假设检验和统计测试比较不同模型的性能。同时，提到了偏差与方差在模型泛化性能中的作用。

摘要由CSDN通过智能技术生成

2.1经验误差与过拟合

错误率 = a个样本分类错误/m个样本

精度 = 1 - 错误率

误差：学习器实际预测输出与样本的真是输出之间的差异。

训练误差：即经验误差。学习器在训练集上的误差。

泛化误差：学习器在新样本上的误差。

过拟合：学习器把训练样本学的”太好”，把不太一般的特性学到了，泛化能力下降，对新样本的判别能力差。必然存在，无法彻底避免，只能够减小过拟合风险。

欠拟合：对训练样本的一半性质尚未学好。

2.2评估方法

(在现实任务中，还需考虑时间、存储空间等开销，和其他因此。这里只考虑泛化误差。)

用一个测试集来测试学习其对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。

在只有一个包含m个样例的数据集D，从中产生训练集S和测试集T。

2.2.1留出法

D分为两个互斥的集合，一个作为S，一个作为T。

分层采样：S和T中正例和反例比例一样。

例如D包含500个正例，500反例。分层采样获得含70%样本的S，有350正例，350反例；30%样本的T，有150正例，150反例。

一般采用随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

例如，进行100次随机划分，每次产生一个训练/测试集用于实验评估，100次后得到100个结果，而留出法返回的则是这100个结果的平均。

弊端：T比较小，评估结果不够稳定准确，偏差大。

常见将大约2/3~4/5的样本用于训练，剩余样本用于测试。

2.2.2交叉验证法

将D划分为k个大小相似的互斥子集。(D通过分层采样得到每个子集Di,保持数据分布一致性)。每次用k-1个子集的并集作为训练集，余下那个作测试集。即可获得K组训练/测试集，进行K次训练和测试，最终返回k个测试结果的均值。也称”k折交叉验证”。

为减小因样本划分不同而引入的差别，k折交叉验证要随机使用不同的划分重复p次，最终评估结果是这p次k折交叉验证结果的均值，即进行p*k次训练/测试。

留一法：m个样本划分成m个子集，每个子集包含一个样本。留一法中被实际评估的模型与期望评估的用D训练出来的模型很相似，因此，留一法的评估结果往往被认为比较准确。

留一法缺陷：数据集较大，例如，数据集包含100w个样本，则需训练100w个模型。且留一法的估计结果未必比其他评估法准确。

2.2.3自助法

从m个样本的数据集D，随机采样(选)一个样本，拷贝入训练D’，放回，继续随机挑选，直至m次。

样本在m次采样中始终不被踩到的概率(1-1/m)^m。

　　

实际评估的模型与期望评估的模型都使用m个训练样本，而仍有约1/3的没有在训练集的样本用于测试。

自助法在数据集较小、难以有效划分训练/测试集时很有用。在初始数据量足够时，留出法和交叉验证法更常用。

2.2.4调参与最终模型

①选择适合的学习算法

②对算法参数进行设定，调参

2.3性能度量

性能度量：衡量模型泛化能力的评价标准。

给定样例集D={(x1,y1),(x2,y2),……,(xm,ym)},yi是对xi的真实标记，要评估学习器f的性能，就要把学习器预测结果f(x)与真实标记y进行比较。

均方误差：

　　

数据分布D和概率密度函数p(.),均方误差：

　　

2.3.1错误率与精度

错误率：分类错误的样本数占样本总数的比例。

　　

精度：分类正确的样本数占样本总数的比例。

　　

数据分布D和概率密度函数p(.)。

错误率：

　　

精度：

　　

2.3.2查准率、查全率与F1

二分类

True positive 真正例

False positive 假正例

True negative 真反例

False negative 假反例

TP+FP+TN+FN = 样例总数

①查准率P

　　

查全率R

　　

通常，查准率高时，查全率偏低；查全率高时&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第2章模型评估与选择

2.1经验误差与过拟合错误率 = a个样本分类错误/m个样本精度 = 1 - 错误率误差：学习器实际预测输出与样本的真是输出之间的差异。训练误差：即经验误差。学习器在训练集上的误差。泛化误差：学习器在新样本上的误差。过拟合：学习器把训练样本学的”太好”，把不太一般的特性学到了，泛化能力下降，对新样本的判别能力差。必然存在，无法彻底避免，只能够减小过拟合风险。欠拟合...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。