简单概括一下机器学习中划分数据集的三种方式

巧克力豆糕

于 2024-01-02 11:42:56 发布

阅读量887

点赞数 11

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/starssssssssss/article/details/135337188

版权

# 这还是机器学习总结的一小部分，接上一篇基本属术语，最后我会发一个总结（还没整理完）#

综述：

留出法和交叉验证法适用于样本数量较大的数据集，自助法适合样本数量较小的数据集。

1、留出法：

概述：对于一个训练集d，比如有1到10十个数字，我们把1-6分为训练集，8-10分为测试集。这就是留出法。

留出法的要点

我认为有三个：

1、要保证训练集和测试集中的样本分布相似。比如在西瓜里，若有5个好瓜和5个坏瓜，训练集里就要有3个好瓜和3个坏瓜。测试集里就要有2个好瓜和2个坏瓜。

2、进行多次留出，计算多次结果的平均值作为最终结果：我们可以进行多次的随机划分，并把每次的测试集的结果取平均值。

3、训练集的划分尽量占数据集的2/3到4/5之间

2、交叉验证法（k折交叉验证）：

概述：把数据集平均分为k部分，每次用k-1部分作为训练集，剩下1部分作为测试集。为减少因样本分布而产生的误差，我们通常会使用不同的划分重复p次，最终取多次结果的均值。

k折交叉验证的特殊情况：留一法

3、自助法：

有数据集d，现在新建一个空集d‘，然后每次随机取一个样本，复制进d’，再把这个样本放回d，这样的过程进行m次，最后就有了d‘作为训练集，d-d'作为测试集。

巧克力豆糕

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
简单概括一下机器学习中划分数据集的三种方式

这还是机器学习总结的一小部分，接上一篇基本属术语，最后我会发一个总结（还没整理完）#
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。