深度学习－－通过正则化regularization防止overfitting

最新推荐文章于 2025-01-07 13:40:06 发布

阿卡蒂奥

最新推荐文章于 2025-01-07 13:40:06 发布

阅读量665

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/akadiao/article/details/78274142

版权

深度学习专栏收录该内容

10 篇文章

订阅专栏

通过正则化regularization防止overfitting

增加训练数据集的量和减小神经网络的规模是减小overfitting的途径之一．但更深层更大的网络潜在有更强的学习能力，即使对于固定的神经网络和固定的训练集仍可以减小overfitting.
常用的正则化形式有
L1 regularization:

$\ C=C_{o}+\frac{\lambda }{n}\sum_{w}^{ }|w|$

L2 regularization:

$\ C=C_{o}+\frac{\lambda }{2n}\sum_{w}^{ }w^{2}$

以L2 Regularization为例：

对于二次损失函数加L2正则化项为：

$\ C=\frac{1}{2n}\sum_{}\left \| y-a_{}^{L}\right \|^2+\frac{\lambda }{2n}\sum_{w}^{ }w^{2}$

对于交叉熵损失函数加L2正则化项为：

$\ C=\frac{1}{2n}\sum_{j}^{ }\left [ y_{j}lna\tfrac{j}{L}+(1-y_{j}))ln(1-a_{j}^{L})) \right ]+\frac{\lambda }{2n}\sum_{w}^{ }w^{2}$

以上两种都可表示为：

$\ C=C_{o}+\frac{\lambda }{2n}\sum_{w}^{ }w^{2}$

可以看出，regularization的cost偏向于让神经网络学习比较小的权重w，除非 $\ C_{o}$ 明显减少．
$\\{\lambda}$ :　调整两项的相对重要程度，较小的 $\\{\lambda}$ 项倾向于让第一项 $\ C_{o}$ 最小化，较大的 $\\{\lambda}$ 项倾向于最小化权重之和．