L1正则化与L2正则化详解

最新推荐文章于 2023-05-20 00:17:42 发布

技术宅zch

最新推荐文章于 2023-05-20 00:17:42 发布

阅读量5.4k

点赞数 4

分类专栏：面经总结机器学习

本文链接：https://blog.csdn.net/qq_19672707/article/details/88874629

版权

机器学习同时被 2 个专栏收录

11 篇文章 6 订阅

订阅专栏

面经总结

4 篇文章 3 订阅

订阅专栏

L1、L2正则化

什么是正则化？
L1、L2正则化公式
正则化的作用
为什么加入L1正则化的模型会更稀疏
Reference

什么是正则化？

正则化在DL、ML中的含义为，为模型取得较好的泛化性，在目标函数中添加的相应惩罚项。
通俗的来讲：
正则化的加入就是为了提高模型的表征能力与适应能力，使其不至于对训练数据集产生过拟合现象。

L1、L2正则化公式

L1正则化其就是惩罚项采用了L1范数而得名的，简单且不严谨的理解L1范数就是绝对值。
加入L1正则化之后的损失函数为：
$\hat{J}(\omega;X,y)=J(\omega;X,y)+\lambda\parallel\omega\parallel_1$
L2正则化与L1相类似，只不过是采用了L2范数，可以理解为是平方根形式的惩罚项。
加入L2正则化之后的损失函数为：
$\hat{J}(\omega;X,y)=J(\omega;X,y)+\frac{\lambda}{2}\parallel\omega\parallel^2_2$
从上述2个公式可以了解到如下两点：

加入L1正则化的模型在权重学习的过程中会将大量的参数置为0。
加入L2正则化的模型在权重学习的过程中会将大量的参数置为很小的值。
（保留所有的项【最主要是高次项系数】）

正则化的作用

L1、L2正则化在一定程度上可以防止过拟合，可以提高模型的泛化能力。
但是 $\lambda$ 取合适的值可以防止过拟合：
若 $\lambda$ 值较大，则会发生欠拟合；若 $\lambda$ 值较小，则不能起到防止过拟合的作用。
L1正则化带来的一个好处就是会训练得到一个参数较为稀疏的模型，也称L1正则化为嵌入式特征选择器。
此时 $\lambda$ 的取值就与模型的稀疏性有关。
若 $\lambda$ 值较大，则模型更稀疏；若 $\lambda$ 值较小，则模型较复杂。
在已知有L1正则化的前提下，想要得到更加稀疏的模型，就需要加大 $\lambda$ 值。
为什么要更加稀疏的模型？
个人解读：在达到相同目的的情况下，模型越简单，更加轻量化是更好的选择。有利于上线做预测，缩短响应时间，有利于分布式部署，更可以长时间驻留内存。

为什么加入L1正则化的模型会更稀疏

这个问题也可以变为：为什么L1正则化会将某些参数置为0，而L2会保留？
可以从以下4个视角来解读：

1.梯度视角

L1正则化在更新时，梯度计算如下：
$\frac{\partial{J}}{\partial\omega}=\nabla{J(\omega;X,y)}+\lambda$
L2正则化在更新时，梯度计算如下：
$\frac{\partial{J}}{\partial\omega}=\nabla{J(\omega;X,y)}+\lambda\omega$
可以看出L1在每次更新时都是以 $\lambda$ 为步长向0逼近，而L2在每次更新时都是以 $\lambda\omega$ 的步长将 $\omega$ 向0逼近。
基于此，由于 $\omega$ 的大小一直在变小，所以L2正则化的步长也随之变小，而L1正则化这项为常数，则会将其以不变的步长向0逼近，直至 $\omega$ 的取值为0。L2正则化在数值越大的参数
这个过程可以类比于：将一根长度为1m的木棒剪短的事件，
L1正则化每次剪短2cm
L2正则化每次剪短一半
所以L1正则化经过50次，将木棒彻底剪没。
L2则会永不停歇的向0m靠近，而永远不会达到0

2.解空间形状视角

L2、L1对应的解空间
由于L2，L1对应的解空间为黄色部分，所以在最小化损失函数时，L1正则化则常常相切于坐标轴上（把某些参数置为0），L2正则化则常常相切于象限内。
【注意】

L2、L1正则化的解空间的大小相同。
L1 并非只相切于坐标轴上的点，有可能相切于边上，如果某一最优解在某边的法向量上。
L2 同理也并非只相切于象限内。

为何黄色区域为解空间？

其实“带正则项”和“带约束条件”是等价的，最终条件是为了解决带约束条件的凸优化问题（拉格朗日对偶问题）

3.函数叠加视角

在这里插入图片描述
将问题简化为1维的CostFunction上图中内容解释：

绿点所在的曲线为原始的 $C o s t F u n c t i o n = L$ ，绿点为其最优解
黄点所在的曲线为加入L2正则化后的 $CostFunction = L+Cx^2$ ，黄点为其最优解
红点所在的曲线为加入L1正则化后的 $L+C\mid{x}\mid$ ，红点为其最优解

为何L1正则化可将参数置为0

其实从上图可以看出，
L1正则化的C在0点左边为负，0点右边为正。则正则项整体的趋势是将x往0点拉，若0点附近L的导数的绝对值没有C的大则会将x置为0
L2正则化在0点前后的导数虽然不同，但是在0点事取到0，但若是L的导数在0点不为0，则会将最优解拉离0点。

4.贝叶斯先验视角

从贝叶斯的角度来看，可以理解为L1正则化相当于对参数 $\omega$ 引入了拉普拉斯先验，L2正则化相当于对参数 $\omega$ 引入了高斯先验
高斯分布曲线如下：
在这里插入图片描述
高斯分布0点分布较为平滑，可以取相近的值，效果相同。
拉普拉斯分布曲线：

拉普拉斯分布在0点较为尖锐，取到0点的可能性更高。

Reference

[1] 《Machine Learning》P252-P254
[2] 《Deep Learning》P141-P146
[3] 《百面机器学习》P164-P168
[4] https://blog.csdn.net/red_stone1/article/details/80755144
[5] https://blog.csdn.net/jinping_shi/article/details/52433975
[6] https://www.zhihu.com/question/37096933
[7] 【高斯分布与拉普拉斯分布图片出处】https://blog.csdn.net/qq_38923076/article/details/82936335

技术宅zch

关注

4
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
L1正则化与L2正则化详解

L1、L2正则化什么是正则化？L1、L2正则化公式正则化的作用为什么加入L1正则化的模型会更稀疏1.梯度视角2.解空间形状视角3.函数叠加视角4.贝叶斯先验视角什么是正则化？正则化在DL、ML中的含义为，为模型取得较好的泛化性，在目标函数中添加的相应惩罚项。通俗的来讲：正则化的加入就是为了提高模型的表征能力与适应能力，使其不至于对训练数据集产生过拟合现象。L1、L2正则化公式L1正则化...
复制链接

扫一扫

专栏目录