西瓜书第二章笔记-评估方法

kurok_

于 2022-07-09 13:54:19 发布

阅读量168

点赞数

分类专栏：机器学习西瓜书文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Misaka_____/article/details/125692598

版权

机器学习西瓜书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了机器学习中数据集划分的三种常见方法：留出法、交叉验证法和自助法，以及它们各自的优缺点。错误率和精度作为基础评估指标，被用来衡量模型的性能。留一法在小样本时适用，但计算成本高；交叉验证能更充分利用数据，而自助法则在数据有限时提供额外训练集。选择合适的数据划分方法对于模型的泛化能力至关重要。

摘要由CSDN通过智能技术生成

基础指标

错误率：测试样本中错判比例

精度：1-错误率

训练集和测试集划分方法：

1.留出法

总数据集D=训练集S+测试集T

传统的三七开之类的，三成测试集，七成训练集。一般还要采用分层采样，让测试集和训练集中正负样本比例相同。

单次留出法往往不够可靠，一般会随机多次。

2.交叉验证法

k折交叉验证即将全部样本D分成k份，然后选出其中k-1份当作训练集，剩余1份当作测试集，并将此过程重复k次(每次的测试集都不同)。

划分时也可选用多种划分方式，一般k折交叉验证通常要随机使用不同的划分方式重复p次，这叫p次k折交叉验证。

如果样本一共只有m个，然后取k=m，这叫留一法，这样就不受随机样本划分的影响了，由于训练集比较接近D，所以效果往往比较准确，但是耗时多。

3.自助法

上面两种方法都不太能完全利用D训练(留一法耗时太多)，为了解决这个问题，提出自助法(bootstrapping)。

给定包含m个样本的数据集D，有放回的采样m次，每次拿1个样本，(注意采样总数和数据集D的样本总数是一样的!!!)，这样可以得到D'，D'作为训练集，D\D'作为测试集，这样的测试结果也叫“包外估计”。

自助法在数据集较小、难以有效划分训练/测试集时很有用。且能从初始数据集中产生多个不同的训练集，对集成学习比较好。

但是也有缺点，改变了初始数据集的分布，会引入估计偏差，所以在数据集充足的情况下还是留出和交叉验证好一些。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第二章笔记-评估方法

机器学习西瓜书第二章-评估方法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。