【机器学习周志华】2. 模型评估与选择

最新推荐文章于 2024-03-21 18:24:00 发布

跳跳糖宝宝

最新推荐文章于 2024-03-21 18:24:00 发布

阅读量237

点赞数

分类专栏：学习笔记文章标签： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38435875/article/details/80742758

版权

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

2.1 经验误差与过拟合

错误率：分类错误的样本数占样本总数的比例

精度：1-错误率

误差：学习器的实际预测输出与样本真实输出之间的差异

训练误差（经验误差）：学习器在训练集上的误差

泛化误差：学习器在新样本上的误差

过拟合（过配）：学习器对训练样本学习的太好了，掌握了训练集的不太一般的特点，以至于在应用到新样本上的时候，泛化误差太大，导致泛化性能下降。是机器学习面临的关键障碍。

欠拟合（欠配）：与过拟合相对，表示对训练样本的一般性质尚未学好

2.2 评估方法

测试误差：寻找一个测试集，使学习器在测试集上产生的误差作为测试误差。然后以测试误差作为泛化误差的近似。测试集应该尽量与训练集互斥。

对于包含样例少的数据集D，有以下几种方法产生测试集和训练集。

2.2.1 留出法

hold-out留出法直接将D分为互斥的两个集合作为训练集S和测试集T。

训练集与测试集相差太大会使训练结果或者评估结果不理想。常见的做法是将2/3~4/5的样本用于训练。一般而言，测试集最少应包括30个样例。

2.2.2 交叉验证法

cross validation(常用)先将数据集划分为k个大小相似的互斥子集。每次用k-1个子集的并集作为训练集，剩下的一个子集作为测试集。这样就可以进行k次训练和测试。最终返回的是这k次测试结果的均值。

交叉验证法可以称为k折交叉验证。k的取值通常为10，5，20.

使用不同的划分方式取得k个子集，重复p次实验-p次k折交叉验证。

留一法，D中包含m个样本，使k=m。这样得到的结果与用D训练出的模型很相似。

2.2.3 自助法

以自助采样法（bootstrap sampling）为基础。

给定包含m个样本的数据集D，我们对它进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D'。

经过计算。可知有36.8%的样本未出现在采样数据集D'中。于是我们可以用D'作训练集，D\D'作测试集。这样的测试结果亦称为“外包估计”。

自助法适用于初始数据集较小的情况。

2.2.4 调参与最终模型

跳跳糖宝宝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习周志华】2. 模型评估与选择

2.1 经验误差与过拟合错误率：分类错误的样本数占样本总数的比例精度：1-错误率误差：学习器的实际预测输出与样本真实输出之间的差异训练误差（经验误差）：学习器在训练集上的误差泛化误差：学习器在新样本上的误差过拟合（过配）：学习器对训练样本学习的太好了，掌握了训练集的不太一般的特点，以至于在应用到新样本上的时候，泛化误差太大，导...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。