L1正则和L2正则的区别详解

最新推荐文章于 2024-07-11 09:21:08 发布

从流域到海域

最新推荐文章于 2024-07-11 09:21:08 发布

阅读量5.1k

点赞数 1

分类专栏：深度学习与机器学习文章标签： L1正则化 L2正则化 L1正则化和L2正则化的区别

本文链接：https://blog.csdn.net/Solo95/article/details/101479076

版权

深度学习与机器学习专栏收录该内容

79 篇文章 13 订阅

订阅专栏

正则化本身是一种参数范数惩罚，即权重衰减。

L2参数正则化

L2参数正则化策略通过向目标函数添加一个正则项 $\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})$ ，来使权重更加接近原点。其他学术圈称L2为岭回归或者Tikhonov正则。
在这里插入图片描述
下图中 $\tilde{w}$ 即为增加L2正则项之后所求的参数集， $w^*$ 则是为加正则项所要求的参数集，进行了特征分解。

L2正则化能让学习算法"感知"到具有较高方差的输入x，因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩(证明详见Deep Learning Chapter 7.1.1)。

L1参数正则化

形式化地，L1正则化定义为：
$\Omega(\theta)=\Vert w \Vert_1 = \sum_i{|w_i|}$

在这里插入图片描述
相对于L2正则化，L1正则化会产生更稀疏的解。这里的稀疏性是指最优值中一些参数为0，即0更多的参数集。由式子7.23可知， $|w_i^*| < \frac{\alpha}{H_{i,j}}$ ，参数集的i维就被指定成了0，而观察L2正则的式子7.13，L2正则只是放缩了原参数集的大小，并不能使其为零。