L1,L2正则化分析

最新推荐文章于 2025-03-23 18:15:53 发布

allein_STR

最新推荐文章于 2025-03-23 18:15:53 发布

阅读量273

点赞数

分类专栏：机器学习/深度学习

原文链接：https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc

版权

机器学习/深度学习专栏收录该内容

79 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文从优化、梯度、先验概率等多个角度深入分析L1和L2正则化，揭示它们如何影响参数。L1正则化倾向于产生稀疏解，使参数接近0，而L2正则化则让参数值减小到一个较小范围但不为0。通过对不同角度的探讨，文章帮助读者理解两种正则化的本质区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 优化角度分析

1）、L2正则化的优化角度分析

在限定的区域，找到使

最小的值。

图形表示为：

上图所示，红色实线是正则项区域的边界，蓝色实线是

的等高线，越靠里的等高圆，

越小，梯度的反方向是

减小最大的方向，用

表示，正则项边界的法向量用实黑色箭头表示。

正则项边界在点P1的切向量有

负梯度方向的分量，所以该点会有往相邻的等高虚线圆运动的趋势；当P1点移动到P2点，正则项边界在点P2的切向量与

梯度方向的向量垂直，即该点没有往负梯度方向运动的趋势；所以P2点是

最小的点。

结论：L2正则化项使值最小时对应的参数变小。

2）、L1正则化的优化角度分析

在限定的区域，找到使

最小的值。

结论：如上图，因为切向量始终指向w2轴，所以L1正则化容易使参数为0，即特征稀疏化。

2. 梯度角度分析

1）、L1正则化

L1正则化的损失函数为：

上式可知，当w大于0时，更新的参数w变小；当w小于0时，更新的参数w变大；所以，L1正则化容易使参数变为0，即特征稀疏化。

2）、L2正则化

L2正则化的损失函数为：

由上式可知，正则化的更新参数相比于未含正则项的更新参数多了

项，当w趋向于0时，参数减小的非常缓慢，因此L2正则化使参数减小到很小的范围，但不为0。

3. 先验概率角度分析

文章《深入理解线性回归算法（二）：正则项的详细分析》提到，当先验分布是拉普拉斯分布时，正则化项为L1范数；当先验分布是高斯分布时，正则化项为L2范数。本节通过先验分布来推断L1正则化和L2正则化的性质。

画高斯分布和拉普拉斯分布图（来自知乎某网友）：

由上图可知，拉普拉斯分布在参数w=0点的概率最高，因此L1正则化相比于L2正则化更容易使参数为0；高斯分布在零附近的概率较大，因此L2正则化相比于L1正则化更容易使参数分布在一个很小的范围内。

4. 知乎点赞最多的图形角度分析

函数极值的判断定理：

（1）当该点导数存在，且该导数等于零时，则该点为极值点；

（2）当该点导数不存在，左导数和右导数的符号相异时，则该点为极值点。

如下面两图：

左图对应第一种情况的极值，右图对应第二种情况的极值。本节的思想就是用了第二种极值的思想，只要证明参数w在0附近的左导数和右导数符合相异，等价于参数w在0取得了极值。

图形角度分析

损失函数L如下：

黑色点为极值点x1，由极值定义：L'(x1)=0；

含L2正则化的损失函数:

由结论可定性的画含L2正则化的图：

极值点为黄色点，即正则化L2模型的参数变小了。

含L1正则化的损失函数:

因此，只要C满足推论的条件，则损失函数在0点取极值(粉红色曲线），即L1正则化模型参数个数减少了。

5. 限制条件法

结论：含L1正则化的损失函数在0点取得极值的条件比相应的L2正则化要宽松的多，所以，L1正则化更容易得到稀疏解（w=0）。

6. PRML的图形角度分析

因为L1正则化在零点附近具有很明显的棱角，L2正则化则在零附近比较平缓。所以L1正则化更容易使参数为零，L2正则化则减小参数值，如下图。

（1）L1正则化使参数为零（2）L2正则化使参数减小

--------------------------

转载自比较全面的L1和L2正则化的解释

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。