【模型调参总结之解决模型过拟合方法】

海牛亡命天涯

于 2022-09-21 14:19:53 发布

阅读量702

点赞数 1

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liu_198/article/details/126922524

版权

模型调参总结之解决模型过拟合方法

前言

在深度学习中对于过少的数据集，模型往往会产生过拟合现象。本文将对过拟合问题进行归纳和总结，并针对性的提出一点自己的见解。

原因

由于数据集中图片数量较少，但模型训练次数扩大时，会导致模型对于训练集中图片分布情况过度依赖，从而降低了模型对于其他分布数据的预测能力，降低了模型的泛化性能。

主要表现

模型对于验证集中loss 上升 并且训练集中loss下降
模型对于验证集中图片准确度下降

解决方法

加大权重衰减指数（weight decay）

权重衰减原理（为什么可以对权重进行衰减）：

我们对加入L2正则化后的代价函数进行推导，先求导：
在这里插入图片描述
可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响：

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为1-ηλ/n，因为η、λ、n都是正的，所以1-ηλ/n小于1，它的效果是减小w，这也就是**权重衰减（weight decay）**的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。

权重衰减作用：

L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

原理：
（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。
（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

加入Dropout 在训练时，我们随机地“删除”一半的隐层单元，视它们为不存在
进行适量的数据增强
可以从loss本身进行分析，如果是CE loss上升说明模型预测置信度和标签的匹配程度在变小（但也仅仅反应了预测置信度），同时要结合评价指标，如果CE loss 只有轻微上升，但评价指标（F1）并没有下降，结果应该并无大碍。

参考链接

https://blog.csdn.net/program_developer/article/details/80867468

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。