深度学习欠拟合问题的判断和解决

最新推荐文章于 2023-12-05 00:10:43 发布

LaVine_chan

最新推荐文章于 2023-12-05 00:10:43 发布

阅读量1.2k

点赞数 1

分类专栏：欠拟合问题文章标签：自然语言处理神经网络机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_34044577/article/details/105705344

版权

本文探讨了深度学习模型欠拟合的判断方法和解决方案，包括检查模型结构和设置。针对模型结构问题，建议增加网络复杂度，如增加层数。对于设置问题，提出了调整初始化权重、选择合适的激活函数和优化器的建议，以解决欠拟合现象。

摘要由CSDN通过智能技术生成

最近在按照一篇论文描述实现论文中模型（是NLP的序列标注模型），开始时参数全部按照论文中描述采用相同参数，包括RNN类型，隐藏层数目，embedding方式，dropout值， gradient clip值，L2 norm值， RNN层数。在模型大功告成之后，一运行，单个sample的loss大概在从2.09降到0.4左右就不降了，验证集的F1值在0.3左右不增加了，我当时第一反应是不是模型写错了，但是其实这个直觉本身就是错误的。如果模型写错了，应该loss从一开始就不会有多大的变化，所以一定是出现了欠拟合现象。本文将整理如何判断和解决欠拟合问题：

判断欠拟合类型

一开始就有相对较大的loss，以及几乎为0的精度，然而长时间训练loss迟迟不下降，精度迟迟不上升，即神经网络总是不能很好地拟合训练数据，那么这就是欠拟合了。
欠拟合类型包含神经网络模型结构问题和神经网络设置问题。
（1）判断欠拟合是否是神经网络结构问题
技巧就是让神经网络在每次训练只迭代同样的数据，比如只迭代一个batch的数据，观察这一个batch中loss值和accurancy值的变化。如果发现神经网络的Loss开始下降，accurancy也开始上升了，并且在训练了一段时间后神经网络能够正确地计算出所训练样本经过神经网络的输出值了，那么这种情况属于神经网络的结构问题。神经网络拟合能力不足，只能拟合小量级的数据。对于大量的数据样本，神经网络无法去拟合全部数据，只能拟合大量样本的整体特征，或者少数样本的具体特征。
解决方法：
增大模型的复杂程度，包括增加神经网络的层数和神经网络的