权重衰减

最新推荐文章于 2023-12-16 22:52:54 发布

Dorothy_Xue

最新推荐文章于 2023-12-16 22:52:54 发布

阅读量990

点赞数 3

分类专栏：知识点理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dorothy_Xue/article/details/102964904

版权

知识点理解专栏收录该内容

7 篇文章 6 订阅

订阅专栏

1. 权重衰减（weight decay）：

L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

2. L2正则化与权重衰减系数：

L2正则化就是在代价函数后面再加上一个正则化项：

$C=C_0+\frac{\lambda }{2n}\sum _ww^2$

上式中 C_0 是原始代价函数， $\lambda$ 是正则项系数（也就是权重衰减系数），权衡正则项与 C_0 项的比重； $\frac{\lambda }{2n}\sum _ww^2$ 是L2正则化项，即所有参数w的平方和，除以训练集的样本大小n。

附：另外还有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整为1.

3. 为什么可以对权重进行衰减？

我们对加入L2正则化后的代价函数进行推导，先qiu'dao

$\frac{\partial C}{\partial w}=\frac{\partial C_0}{\partial w}+\frac{\lambda }{n}w$

$\frac{\partial C}{\partial b}=\frac{\partial C_0}{\partial b}$

可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响:

$w\rightarrow w-\eta \frac{\partial C_0}{\partial w}-\frac{\eta \lambda }{n}w =(1-\frac{\eta \lambda }{n})w-\eta \frac{\partial C_0}{\partial w}$

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为 $1-\frac{\eta \lambda }{n}$ ，因为 $\eta ,\lambda,n$ 都是正的，所以 $1-\frac{\eta \lambda }{n}$ 小于1，它的效果是减小w，这也就是权重衰减（weight decay）的由来。当然，考虑到后面的导数项，w最终的值可能增大也可能减小。

4. 权重衰减（L2正则化）的作用？

（1）作用：权重衰减（L2正则化）可以避免模型过拟合问题

（2）思考：L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

（3）原理：

从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫奥卡姆剃须刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。
从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾及每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。