机器学习笔记---评估方法

最新推荐文章于 2022-08-17 16:25:55 发布

抓起的第一个娃娃

最新推荐文章于 2022-08-17 16:25:55 发布

阅读量279

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49549614/article/details/116357987

版权

机器学习笔记专栏收录该内容

11 篇文章 1 订阅

订阅专栏

最近开始重新看机器学习，并归纳整理。

通常我们为了得到泛化能力比较好的模型，经常会把数据按照某种比例分成训练集和测试集，进而将测试集的测试误差近似作为模型的泛化误差，常用的评估方法有：

留出法、交叉验证法、自助法，具体介绍如下：

留出法

直接将数据集分成两个互斥的集合，其中一个作为训练集，一个作为测试集，使用训练集训练出模型后，用测试集评估模型的测试误差，作为对泛化误差的估计。

优点：

评估结果一般是准确的。

缺点：

在数据集比较大时，计算开销大。

注：

训练集和测试集的划分要尽可能保持数据分布的一致性；
训练集和测试集的划分比例一般为2：1~4：1，并且数据有多种划分方式，不同的划分方式会对模型有不同的影响，所以在使用留出法时，一般采用若干次随机划分、重复进行实验评估后取均值作为留出法的评估结果。

交叉验证法（K折交叉验证）

将数据集D分成k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，然后每次使用k-1个子集的并集作为训练集，剩余的那个子集作为测试集，最终将这k个子集的测试结果的均值作为最终的测试结果。

自助法（可重复采样或有放回采样）

给定m个样本的数据集D，对D采样产生数据集D`:每次随机从D中挑选一个样本，将其拷贝放入D`,然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍可能被采到，这个过程重复m次，就得到了包含m个样本的数据集D`，并将次作为训练集，然后D中除了D`以外的的剩余部分作为测试集。

优点：

能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大好处；

在数据集较小、难以有效划分训练集和测试集时很有用。

缺点：

改变了初始数据集的分布，会引入估计误差。

抓起的第一个娃娃

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习笔记---评估方法

通常我们为了得到泛化能力比较好的模型，经常会把数据按照某种比例分成训练集和测试集，进而将测试集的测试误差近似作为模型的泛化误差，常用的评估方法有：留出法、交叉验证法、自助法。留出法交叉验证法自助法 ...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。