机器学习- 西瓜书 - 2.2 评估方法

最新推荐文章于 2023-03-31 16:15:59 发布

Anthony_rush

最新推荐文章于 2023-03-31 16:15:59 发布

阅读量347

点赞数

分类专栏： ML自学笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anthony_rush/article/details/105743631

版权

ML自学笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 留出法

训练测试集划分时需要尽可能保持数据分布一致性

单次使用留出法不可靠，应若干次随机划分，重复实验评估取均值

2.交叉验证法

把数据集D分成k等分，每次用k-1个子集作为训练集，余下一个为测试集，这样可得k组训练/测试集，从而可进行k次训练和测试，最后返回的结果为k次测试结果的均值

2.1 留一法

若D中有m个样本，令k=m，则得到特例：留一法。留一法不受随机样本划分方法的影响，因为m个样本只有唯一的方式划分成m个子集，每个子集包含一个样本。留一法训练数据量大，使得绝大多数情况下，留一法中被实际评估的模型与期望评估用的D训练出来的模型很相似，因此，留一法往往比较准确。但是，留一法也有缺陷，当数据量过大时，将m个模型的计算开销太大，而且留一法未必比其他的评估方法更准确

3.自助法

在留出法和交叉验证法中，难免要把部分训练集划分到测试集，导致因训练样本规模和期望的不同而产生估计偏差。

自助法可每次从数据集D中随机有放回的挑出一个样本，把它拷贝至数据集D’中。将这个过程重复m次，得到包含m个样本的数据集D’。通过概率计算可得，初始数据集中约有36.8%的样本未出现在采样数据集D’中。因此，可将D‘作为训练集，D\D’作为测试集。

自助法在数据集较小，难以有效划分训练/测试集的时候很有用。其次，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法很有好处。但是，自助法产生的数据集会改变数据分布，会产生估计偏差。因此，初始数据集足够时，留出法和交叉验证法更常用一些。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习- 西瓜书 - 2.2 评估方法

1. 留出法训练测试集划分时需要尽可能保持数据分布一致性单次使用留出法不可靠，应若干次随机划分，重复实验评估取均值2.交叉验证法把数据集D分成k等分，每次用k-1个子集作为训练集，余下一个为测试集，这样可得k组训练/测试集，从而可进行k次训练和测试，最后返回的结果为k次测试结果的均值2.1 留一法若D中有m个样本，令k=m，则得到特例：留一法。留一法不受随机样本划分方法的影...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。