神经网络之L2正则化

最新推荐文章于 2023-12-10 13:16:10 发布

hjj牛bb啊

最新推荐文章于 2023-12-10 13:16:10 发布

阅读量7.3k

点赞数 6

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gadwgdsk/article/details/80351291

版权

机器学习专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1、前言

之前的BP神经网络，训练时候，算法会调整每层的参数w使得损失尽可能小，由于数据存在很多干扰或者噪声，容易产生过拟合现象，导致网络对训练数据预测的效果较好，而对测试和验证数据的预测效果较差。过拟合的决策面可能如下所示：

2、L2 Regularization

事实表明，在相同网络结构下，决策面越复杂，参数w的值往往更大，而w较小时候，得到的决策面相对平缓。L2正则化是在原有损失函数中增加了L2正则化项，在优化网络输出与真值的误差时还要让w尽量小。具体公式如下：

其中lambda是新引入的超参数，lambda越大，正则化项作用越大，实际需要Tune。

公式很简单，只是增加了所有层所有参数的平方和。所以求导的时候，由于是各层的和，对l层求导的时候，只需要考虑l层的参数，其他层的导数都是0.正则化项的导数为：

前面已经推导过，每一层参数的导数为：

将该导数加上上面正则化项的导数即可得到新的每一层的dW计算公式了。

3、小结

L2正则化实际上是通过加入一个与原损失函数互相牵制的一个部分，来抑制w过大导致的过拟合，或者说决策面过度复杂，是的决策面圆滑一些。公式中没有使用到偏置b，其实也可以用，但由于b是众多参数的一个，影响很小，所以不加入也并不会有明显的影响。

还有很多其他的正则化方法，比如L1正则化等。

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。