数据集划分方式（误差的评估方法）

最新推荐文章于 2022-12-13 20:06:38 发布

heda3

最新推荐文章于 2022-12-13 20:06:38 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：数据集划分交叉验证留出法留一法自助法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heda3/article/details/85949593

版权

机器学习专栏收录该内容

28 篇文章 5 订阅

订阅专栏

数据集的划分：训练数据和测试数据（注意两者应该是互斥的）

其中训练数据可再分为：训练集和验证集

验证集用来进行模型选择和调参；测试数据为实际中可能会遇到的所有数据。

训练集和测试集的划分方式

留出法（hold out）：（注意数据的划分应该保持样本类别比例一致）

（1）采用分层采样操作：先将总体的单位按某种特征分为若干次级总体（层），然后再从每一层内进行单纯随机抽样，组成一个样本，参考https://blog.csdn.net/zealfory/article/details/53507848。

（2）训练集=2/3~4/5的样本

再采用若干次随机划分，获得多组训练集和测试集，实验评估的结果取平均值

交叉验证法（cross validation）：

（1）采用分层抽样，将数据集划分为k个大小互斥子集

（2）k-1个子集用于训练，1个子集用于测试

（3）总共k组训练和测试结果，评估结果取平均

再采用若干次随机划分，例如10次10折，也就是100次训练和测试结果取平均

其中k的取值一般为5,10,20等

留一法：

也即是上述的交叉验证法的一个特例，当样本数为m，划分的子集为m个。

因此不受随机样本划分的影响。

优劣：

自助法:(可重复采样，有放回的采样操作)

优势是：在样本点较少时好用

缺点是：改变数据集分布，引入误差

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据集划分方式（误差的评估方法）

数据集的划分：训练数据和测试数据（注意两者应该是互斥的）其中训练数据可再分为：训练集和验证集验证集用来进行模型选择和调参；测试数据为实际中可能会遇到的所有数据。训练集和测试集的划分方式留出法（hold out）：（注意数据的划分应该保持样本类别比例一致）（1）采用分层采样操作：先将总体的单位按某种特征分为若干次级总体（层），然后再从每一层内进行...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

heda3 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。