torch笔记十六 | 权重衰退（Weight Decay）

最新推荐文章于 2024-08-02 18:23:23 发布

Hygge MrYang

最新推荐文章于 2024-08-02 18:23:23 发布

阅读量1.7k

点赞数

分类专栏： torch笔记文章标签：过拟合 L2正则化权重衰减正则项模型复杂度

本文链接：https://blog.csdn.net/qq_38276972/article/details/116208235

版权

torch笔记专栏收录该内容

24 篇文章 10 订阅

订阅专栏

一种常见的处理过拟合的方法。

1.使用均方范数作为硬性限制

控制模型容量的两种方式：参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围，来控制模型容量的。
$\left \| w \right \|^{2}\leq \theta$

$\left \| w \right \|^{2}$ 代表权重中每一项的平方和。通常不限制偏移b，小的 $\theta$ 意味着更强的正则项。这种方法很少用，一般转化为下面这种柔性限制。

2.使用均方范数作为柔性限制

下面两个式子表示的意思是一样的。超参数 $\lambda$ 控制了正则项的重要程度。 $\lambda$ =0：无作用； $\lambda$ 趋近于无穷大，w趋近于0。
$l(w,b)+\frac{\lambda }{2}\left \| w \right \|^{2}$
在这里插入图片描述
3.参数更新法则

计算梯度：
$\frac{\partial }{\partial w}(\iota (w,b)+\frac{\lambda }{2}\left \| w \right \|^{2})=\frac{\partial \iota (w,b)}{\partial w}+\lambda w$

时间t更新参数：

$w_{t+1}=w_{t}-\eta \frac{\partial }{\partial w_{t}}(\iota (w_{t},b)+\frac{\lambda }{2}\left \| w_{t} \right \|^{2})=(1-\eta \lambda )w_{t}-\eta \frac{\partial \iota (w_{t},b)}{\partial w_{t}}$