《机器学习》第二章模型评估与选择

最新推荐文章于 2021-10-31 23:05:16 发布

湘萌Matsuko

最新推荐文章于 2021-10-31 23:05:16 发布

阅读量845

点赞数

分类专栏：机器学习清华大学出版社

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33905679/article/details/99218548

版权

2.1 经验误差与拟合

P23

错误率：分类错误的样本数占样本总数的比例
精度：精度=1-错误率
误差：学习器的实际预测输出与样本的真实输出之间的差异
训练误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差
过拟合：把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质
欠拟合：对训练样本的一般性质尚未学好

2.2评估方法

P24
通常采用实验测试对学习器的泛化误差进行评估并进而做出选择。因此需要一个：

测试集（testing set）：来测试学习器对新样本的判别能力，然后以“测试误差”（testing error）作为泛化误差的近似。

测试样本要尽可能地不出现在训练集中。因此，通过对数据集D进行适当的处理，从中产生训练集S和测试集T。

2.2.1 留出法

P25
留出法（hold-out）直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另外一个作为测试集T。即D=S∪T，S∩T =Φ。在S上训练出来模型后，用T来评估其测试误差，作为对泛化误差的估计。
以二分类任务为例：
D=1000 S=700 T=300
用S进行训练之后，在模型T上有90个样本分类错误，那么错误率为(90/300)*100%=30%。因此精度为1-30%=70%
需要注意的是：

训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。若S、T中样本类别比例差别很大，则误差估计将由于训练/测试数据分布的差异而产生偏差。
在给定训练/测试集的样本比例之后，仍存在多种划分方式对初始数据集D进行分割。在采用留出法时，一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。

可能导致的问题：

若训练集S包含绝大多数的样本，则训练出的模型可能更接近于D训练出的模型，但由于T比较小，评估结果可能不够稳定准确；若令训练集T多包含一些样本，则训练集S与D差别更大了，从而降低了评估结果的真实性（fidelity）。

这个问题没有完美的解决方案，一般是用2/3~4/5的数据作为训练集。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》第二章模型评估与选择

2.1 经验误差与拟合
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。