深度网络的过拟合问题讨论

最新推荐文章于 2024-07-11 10:07:15 发布

MrGiovanni

最新推荐文章于 2024-07-11 10:07:15 发布

阅读量1.8w

点赞数 11

文章标签：过拟合深度网络

本文链接：https://blog.csdn.net/mrgiovanni/article/details/52167016

版权

本文探讨了深度学习中遇到的过拟合问题，分析了其原因并提出了多种解决策略，包括Dropout层、数据集大小、迁移学习、调参技巧、正则化方法等。通过L1/L2正则化和调整网络结构，成功缓解了过拟合现象，提高了模型在测试集上的表现。

摘要由CSDN通过智能技术生成

问题背景

最近做深度学习实验的时候遇到了一个很棘手的问题，那就是大名鼎鼎的“过拟合”，直观地表现在图中是长这个样子的，分析来讲就是说深度网络在拟合训练集的时候是可以很好地实现，Loss很小，Accuracy很大（我这儿能达到99.99%），但是呢，测试集的Loss很大，Accuracy在一个比较低的范围内波动（我这儿是70%-80%），并没有像论文中说的那样，测试集的Loss随着迭代的增加而减小，Accuracy随着迭代的增加而增大。

如果你没有看出来上图有什么毛病的话，我就放一张理想状态的结果图做对比（如下图粗粗的线），画的比较挫，但是大概的意思在那儿，随着迭代的增加，训练集和测试集的精确度应该上升，我们可以容忍测试集的精确度没有训练集那么高，毕竟有拟合的误差，但是像上图我做出来的结果那样，一定是“过拟合”啦。

用白话来说“过拟合”就是：老师给你的题你都会做了，考试给你换个花样你就懵逼了。好，老师给你的题就相当于我们的训练数据，考试的题相当于测试数据，“过拟合”就是深度网络把训练的数据拟合的特别好，但是有点好过头了，对训练数据当然是100%好用，但是一来测试数据就疯了，那这样的网络训练出来其实是没有用的，训练集已经是监督学习了，拟合的再好也没用。

体现在函数上就是下图

正常是测试数据是一个线性或者二次多项式的分布，如果过拟合了，深度网络很有可以弄出一个特别复杂的拟合曲线函数，把上面所有的黑点点都穿过，当然训练数据的误差超级小，但是测试数据一来整个的误差就比较高了。