机器学习或深度学习数据量的问题

最新推荐文章于 2023-04-23 10:53:06 发布

icecreamdinner

最新推荐文章于 2023-04-23 10:53:06 发布

阅读量1.8k

点赞数

文章标签： tensorflow 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/icecreamdinner/article/details/111578856

版权

问题的复杂度：输入与输出关联最好的未知函数

算法的复杂度：用于从具体事例中归纳的未知底层学习映射函数的算法

评价多少数据量才能训练好模型？

1.非线性模型需要的数据量比线性模型多；
2.交叉验证估计一个模型的泛化能力；
3.根据学习曲线判断。

学习曲线

横轴代表训练数据集大小，随着数据的增加，纵轴的准确率随之变化，借此估计模型是否训练完成。
在这里插入图片描述
欠拟合学习曲线绘制： 左图
首先，我们观察训练集的表现：当训练集只有一两个样本的时候，模型能够非常好的拟合它们，这也是为什么曲线是从零开始的原因。但是当加入了一些新的样本的时候，训练集上的拟合程度变得难以接受，出现这种情况有两个原因，一是因为数据中含有噪声，另一个是数据根本不是线性的。因此随着数据规模的增大，误差也会一直增大，直到达到高原地带并趋于稳定，在之后，继续加入新的样本，模型的平均误差不会变得更好或者更差。我们继续来看模型在验证集上的表现，当以非常少的样本去训练时，模型不能恰当的泛化，也就是为什么验证误差一开始是非常大的。当训练样本变多的到时候，模型学习的东西变多，验证误差开始缓慢的下降。但是一条直线不可能很好的拟合这些数据，因此最后误差会到达在一个高原地带并趋于稳定，最后和训练集的曲线非常接近。

当模型表现出欠拟合特性时，

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习或深度学习数据量的问题

问题的复杂度：输入与输出关联最好的未知函数算法的复杂度：用于从具体事例中归纳的未知底层学习映射函数的算法评价多少数据量才能训练好模型？1.非线性模型需要的数据量比线性模型多；2.交叉验证估计一个模型的泛化能力；3.根据学习曲线判断。学习曲线欠拟合学习曲线绘制：from sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitdef plot_learning_
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

icecreamdinner 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。