[机器学习]划分训练集和测试集的方法

最新推荐文章于 2024-08-04 02:35:58 发布

PJZero

最新推荐文章于 2024-08-04 02:35:58 发布

阅读量2.4w

点赞数 3

分类专栏：机器学习文章标签：机器学习测试数据算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pengjian444/article/details/71076564

版权

机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

在进行机器学习常常需要处理的一个问题是划分测试集和训练集。训练集用于训练模型，测试集则是根据训练集的训练结果来评判最终的训练效果。一般而言，测试集应该和训练集尽可能保持互斥～常用的数据集划分方法有一下几种

方法1：留出法

直接将数据集D划分为两个互斥的集合。

需要注意的问题：

在划分的时候应该尽量保持数据分布的一致性。例如在分类任务中应该保持正负样本比例相近。
划分存在多种方法，为得到合理的算法模型评估标准，应该进行多次数据集的划分。得到每次划分的数据集上的评估结果，取平均值作为评判模型优劣的标准。
训练集不能太大：训练集太大会导致测试集偏小，评估的结果可能不太准确稳定。
测试集不能太大：测试集太大会导致训练集偏小，训练出来的模型可能会完整数据集所需要的模型产生较大的偏差。

方法2：交叉验证（cross-Validation)

该方法先将数据集D划分为k个大小相似的互斥子集，每个子集在划分的时候应该保持数据分布的一致性，即从D中分层采样得到。然后进行k次训练，每次训练将k-1个子集的并集作为训练集，余下的作为测试集。这种方法有被成为“k折交叉验证（k-fold cross-validation）”。如果D.size() == k, 则该方法又被成为留一法（leave-one-out 简称LOO)。

需要注意的问题

划分数据集同样存在多种方法，为得到合理值。应该进行多次交叉验证，取评价指标的平均值作为最后的结果。

方法3：自助法

直接以自主采样法为基础，从中有放回的采样执行m次，得到包含m个样本的训练集。从未在训练集中出现的样本则作为测试样本放入测试集中。

需要注意的问题

自助法在数据集较小，难以有效划分训练集和测试集的时候比较有效。
自助法改变了原有数据的分布，这样会引入估计误差。
在数据量充足的时候尽量考虑用留出法或者交叉验证法

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。