数据集shuffle的作用

最新推荐文章于 2023-12-21 17:05:49 发布

youminglan

最新推荐文章于 2023-12-21 17:05:49 发布

阅读量1.6k

点赞数

文章标签：机器学习深度学习人工智能 python tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43485035/article/details/109907035

版权

在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。

以猫狗分类为例，假如数据集是

Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat

所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。

那如果Dog和Cat一直交替，会不会就不过拟合了呢？

Dog，Cat，Dog，Cat，Dog ，Cat，Dog，...

假如目标函数是： [公式]
使用梯度下降优化：
给定权重取值

和迭代步step的情况下，固定的数据集顺序意味着固定的训练样本，也就意味着权值更新的方向是固定的，而无顺序的数据集，意味着更新方向是随机的。如下图中的A点，如果固定的更新方向是红色箭头方向，则很难收敛到最优点，而如果更新方向是随机的，则有可能就沿着白色箭头方向收敛到最优点。在这里插入图片描述
所以固定的数据集顺序，严重限制了梯度优化方向的可选择性，导致收敛点选择空间严重变少，容易导致过拟合。

如果本文对你有帮助，欢迎点赞、订阅以及star我的项目。
你的支持是我创作的最大动力！

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据集shuffle的作用

在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。以猫狗分类为例，假如数据集是Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。那如果Dog和Cat一直交替，会不会就不过拟合了呢？Dog，Cat，Dog，Cat
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。