数据集shuffle的重要性

最新推荐文章于 2024-04-17 15:04:02 发布

weixin_34050389

最新推荐文章于 2024-04-17 15:04:02 发布

阅读量3.6k

点赞数 3

文章标签：人工智能数据库

原文链接：https://juejin.im/post/5c6b989bf265da2ddd4a5261

版权

深度学习项目，在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。那为什么shuffle可以有效的避免过拟合？以猫狗分类为例，假如数据集是

Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat
复制代码

所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。那如果Dog和Cat一直交替，会不会就不过拟合了呢？

Dog，Cat，Dog，Cat，Dog ，Cat，Dog，...
复制代码

依然会过拟合，模型是会记住训练数据路线的，为啥呢？

首先我们需要明白固定的数据集顺序，意味着给定迭代步，对应此迭代步的训练数据是固定的。假如目标函数是J=f(w1, w2)，使用梯度下降优化J。给定权重取值w1、w2和迭代步step的情况下，固定的数据集顺序意味着固定的训练样本，也就意味着权值更新的方向是固定的，而无顺序的数据集，意味着更新方向是随机的。如下图中的A点，如果固定的更新方向是红色箭头方向，则很难收敛到最优点，而如果更新方向是随机的，则有可能就沿着白色箭头方向收敛到最优点。

所以固定的数据集顺序，严重限制了梯度优化方向的可选择性，导致收敛点选择空间严重变少，容易导致过拟合。

所以模型是会记住数据路线的，所以shuffle很重要，一定要shuffle。

转载于:https://juejin.im/post/5c6b989bf265da2ddd4a5261

weixin_34050389

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
数据集shuffle的重要性

深度学习项目，在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。那为什么shuffle可以有效的避免过拟合？以猫狗分类为例，假如数据集是Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat复制代码所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。