L1正则化使得模型参数具有稀疏性的原理。

最新推荐文章于 2024-04-25 18:26:02 发布

一种tang两种味

最新推荐文章于 2024-04-25 18:26:02 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/GFDGFHSDS/article/details/104598477

版权

角度1：解空间形状

面试者给出的答案多数也是从这个角度出发的。在二维的情况下，黄色的部分是L2和L1正则项约束后的解空间，绿色的等高线是凸优化问题中目标函数的等高线，如图7.6所示。由图可知，L2正则项约束后的解空间是圆形，而L1正则项约束的解空间是多边形。显然，多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。
在这里插入图片描述
但是为什么为什么加入了L1正则项就是定义了一个解空间约束？为什么L1和L2的解空间是不同的？面试官如果深究下去，很多面试者难以给出满意的答案。其实可以通过KKT条件给出一种解释。
事实上，“带正则项”和“带约束条件”是等价的。为了约束w的可能取值空间从而防止过拟合，我们为该最优化问题加上一个约束，就是w的L2范数的平方不能大于m：
在这里插入图片描述
为了求解带约束条件的凸优化问题，写出拉格朗日函数：

若w和λ分别是原问题和对偶问题的最优解，则根据KKT条件，它们应满足

Alt

仔细一看，第一个式子不就是w为带L2正则项的优化问题的最优解的条件嘛，而λ就是L2正则项前面的正则参数。
这时回头再看开头的问题就清晰了。L2正则化相当于为参数定义了一个圆形的解空间（因为必须保证L2范数不能大于m），而L1正则化（绝对值）相当于为参数定义了一个棱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内，那么约束条件下的最优解一定是在解空间的边界上，而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞，从而产生稀疏解。

角度2：函数叠加

第二个角度试图用更直观的图示来解释L1产生稀疏性这一现象。
仅考虑一维的情况，多维情况是类似的，如图7.7所示。假设棕线是原始目标函数L（w）的曲线图，显然最小值点在蓝点处，且对应的w’值非0。
在这里插入图片描述
首先，考虑加上L2正则化项，目标函数变成L（w）+Cw^2，其函数曲线为黄色。此时，最小值点在黄点处，对应的w*的绝对值减小了，但仍然非0。
然后，考虑加上L1正则化项，目标函数变成L（w）+Clwl，其函数曲线为绿色。此时，最小值点在红点处，对应的w是0，产生了稀疏性。
产生上述现象的原因也很直观。加入L1正则项后，对带正则项的目标函数求导，正则项部分产生的导数在原点左边部分是一C，在原点右边部分是C，因此，只要原目标函数的导数绝对值小于C，那么带正则项的目标函数在原点左边部分始终是递减的，在原点右边部分始终是递增的，最小值点自然在原点处。相反，L2正则项在原点处的导数是0，只要原目标函数在原点处的导数不为0，那么最小值点就不会在原点，所以L2只有减小w绝对值的作用，对解空间的稀疏性没有贡献。在一些在线梯度下降算法中，往往会采用截断梯度法来产生稀疏性，这同L1正则项产生稀疏性的原理是类似的。

角度3：贝叶斯先验

从贝叶斯的角度来理解L1正则化和L2正则化，简单的解释是，L1正则化相当于对模型参数w引入了拉普拉斯先验，L2正则化相当于引入了高斯先验，而拉普拉斯先验使参数为0的可能性更大。
图7.8是高斯分布曲线图。由图可见，高斯分布在极值点（0点）处是平滑的，也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。这就是L2正则化只会让w更接近0点，但不会等于0的原因。
高斯分布图
相反，图7.9是拉普拉斯分布曲线图。由图可见，拉普拉斯分布在极值点（0点）处是一个尖峰，所以拉普拉斯先验分布中参数w取值为0的可能性要更高。在此我们不再给出L1和L2正则化分别对应拉普拉斯先验分布和高斯先验分布的详细证明。
在这里插入图片描述

一种tang两种味

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
L1正则化使得模型参数具有稀疏性的原理。

角度1：解空间形状。面试者给出的答案多数也是从这个角度出发的。在二维的情况下，黄色的部分是L2和L1正则项约束后的解空间，绿色的等高线是凸优化问题中目标函数的等高线，如图7.6所示。由图可知，L2正则项约束后的解空间是圆形，而L1正则项约束的解空间是多边形。显然，多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。但是为什么为什么加入了L1正则项就是定义了一个解空间约束？为什么L1和L2的解空...
复制链接

扫一扫