Regularization（L1、L2）

最新推荐文章于 2023-12-06 21:32:42 发布

莱尼布鲁斯

最新推荐文章于 2023-12-06 21:32:42 发布

阅读量583

点赞数

分类专栏： Machine Learning\Deep Learning 文章标签：深度学习机器学习 python 过拟合神经网络

本文链接：https://blog.csdn.net/qq_45769877/article/details/114027598

版权

Machine Learning\Deep Learning 专栏收录该内容

21 篇文章 5 订阅

订阅专栏

文章目录

L2 regularization
- - L2 in deep learning
L1 regularization
- - L1 in deep learning
L1 vs L2

deep learning可以作为很复杂的model，很复杂的model可以很容易在训练数据集中学到更多的东西，对训练数据拟合的非常好，这就很容易造成overfitting的现象，那regularization就可以一定程度避免这一现象发生，regularization就是在loss funcation中添加对参数规范的term，使训练具有一定偏向性，在deep learning中可以添加regularization term以希望参数值越小越好，使得训练出的model更加平滑。

L2 regularization

假设参数集 $\theta=\{w_1,w_2,...,w_n\}$ ，L2 norm(L2正规化)是对参数求平方和:
$||\theta||_2=(w_1)^2+(w_2)^2...+(w_n)^2$

L2 in deep learning

loss funcation中添加regularization项： $L'(\theta)=L(\theta)+\lambda \frac{1}{2}||\theta||_2$
loss funcation对参数 $w_i$ 求梯度： $\frac{\partial L'}{\partial w_i}=\frac{\partial L}{\partial w_i}+\lambda w_i$
update参数 $w_i$ ： $w_i^{t+1}=w_i^t-\eta \frac{\partial L'}{\partial w_i}=w_i^t-\eta(\frac{\partial L}{\partial w_i}+\lambda w_i^t)=(1-\eta \lambda)w_i^t-\eta \frac{\partial L}{\partial w_i}$

Regulization term中 $\lambda \frac{1}{2}||\theta||_2$ 前加了两个因子， $\lambda$ 作为参数，可以控制整个正则项的对loss的影响程度， $\lambda$ 越大影响越大，对梯度更新的影响也就越大， $\frac{1}{2}$ 是为了在求梯度时，去掉 $2$ 这个系数。

根据梯度更新式子 $w_i^{t+1}=(1-\eta \lambda)w_i^t-\eta \frac{\partial L}{\partial w_i}$ ，与原式子 $w_i^{t+1}=w_i^t-\eta \frac{\partial L}{\partial w_i}$ 作比较，在减掉learning rate $\times$ gradient之前，将 $w_i^t$ 乘上了系数 $(1-\eta \lambda)$ ，以希望对 $w_i^t$ 进行一次缩放， $\eta$ 是非常小的，那么缩放的程度取决于 $\lambda$ ， $\lambda$ 大（使得系数不小于0）则缩放程度大，但通常 $\lambda$ 取值较小，对 $w$ 进行一次微小的缩放，每次更新时都会对 $w$ 缩放一次。使用L2 regularization参数趋向于更小的值，这就叫做Weight Decay(权重衰减)

L1 regularization

假设参数集 $\theta=\{w_1,w_2,...,w_n\}$ ，L1 norm是对每个参数的绝对值求和：
$||\theta||_1=|w_1|+|w_2|+...+|w_n|$

L1 in deep learning

loss funcation中添加regularization项： $L'(\theta)=L(\theta)+\lambda \frac{1}{2}||\theta||_1$
loss funcation对参数 $w_i$ 求梯度： $\frac{\partial L'}{\partial w_i}=\frac{\partial L}{\partial w_i}+\lambda sgn(w_i)$
update参数 $w_i$ ： $w_i^{t+1}=w_i^t-\eta \frac{\partial L'}{\partial w_i}=w_i^t-\eta(\frac{\partial L}{\partial w_i}+\lambda \ sgn(w_i^t))=w_i^t-\eta \frac{\partial L}{\partial w_i}-\eta \lambda \ sgn(w_i^t)$

在对 $w_i$ 求梯度时，绝对值项 $w_i|$ 对 $w_i$ 的微分值 $\frac{d(|w_i|)}{dw_i}$ 怎么计算，依据绝对值函数，当 $w_i<0$ 时，其导数为-1，当 $w_i>0$ 时，其导数为1， $w_i=0$ 时，假设其导数为0，可用 $sgn(w_i)$ 的值代替。

根据梯度更新式子 $w_i^{t+1}=w_i^t-\eta \frac{\partial L}{\partial w_i}-\eta \lambda \ sgn(w_i^t)$ ，与原式子 $w_i^{t+1}=w_i^t-\eta \frac{\partial L}{\partial w_i}$ 作比较，每次更新多加上一项 $(-\eta \lambda \ sgn(w_i^t))$ ，参数 $w_i^t$ 若为正，则 $sgn(w_i^t)$ 的值为 $+ 1$ ，相当加上 $(-\eta \lambda)$ ，使得参数 $w_i^t$ 趋于更小值。

L1 vs L2

L1和L2对参数 $w$ 的更新公式：
$w_i^{t+1}=w_i^t-\eta \frac{\partial L}{\partial w_i}-\eta \lambda \ sgn(w_i^t)\\ L2: w_i^{t+1}=w_i^t-\eta\frac{\partial L}{\partial w_i}-\eta\lambda w_i^t$
L1和L2虽然它们都是使参数的绝对值变小，但regularization的方式不同：

L1的regularization是static的值 $(-\eta \lambda \ sgn(w_i^t))$
L2的regularization是dynamic的值 $(-\eta \lambda w_i^t)$

L2的regularization的值与 $w$ 值成正比， $w$ 绝对值越大则regularization的值越大，参数下降越快，但当参数 $w$ 的绝对值比较小的时候，L2的下降速度就会变得很慢，train出来的参数平均都是比较小的，而L1每次下降一个固定的值，train出来的参数是比较sparse，这些参数有很多是接近0的值，也会有很大的值。

莱尼布鲁斯

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Regularization（L1、L2）

文章目录L2 regularizationL2 regularization in deep learningL1 regularizationL1 regularization in deep learningL1 vs L2deep learning可以作为很复杂的model，很复杂的model可以很容易在训练数据集中学到更多的东西，对训练数据拟合的非常好，这就很容易造成overfitting的现象，那regularization就可以一定程度避免这一现象发生，regularization就是在lo
复制链接

扫一扫

专栏目录