L1正则和L2正则

最新推荐文章于 2024-08-02 13:30:00 发布

爱吃鱼的小王同学

最新推荐文章于 2024-08-02 13:30:00 发布

阅读量1.2k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_24263553/article/details/105104058

版权

L1和L2正则化：
我们所说的正则化，就是在原来的loss function的基础上，加上了一些正则化项或者称为模型复杂度惩罚项。
结构风险最小化：在经验风险最小化的基础上（也就是训练误差最小化），尽可能采用简单的模型，以此提高泛化预测精度。
在这里插入图片描述

那现在我们就看看加了L1正则化和L2正则化之后，目标函数求解的时候，最终解有什么变化。

图像解释（假设X为一个二维样本，那么要求解参数 [公式] 也是二维）：
在这里插入图片描述
1. L1正则化和L2正则化的区别？
L1会趋向于产生少量的特征，而其他的特征都是零，因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为零，产生稀疏权重矩阵。

L2会选择更多的特征，这些特征都会接近于零，最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是零，当最小化‖w‖时，就会使每一项趋近于零。
2. L1正则为什么可以把系数压缩成0，坐标下降法的具体实现细节
坐标下降法属于一种非梯度优化的方法，它在每步迭代中沿一个坐标的方向进行搜索，通过循环使用不同的坐标方法来达到目标函数的局部极小值。
坐标轴下降法进行参数更新时，每次总是固定另外m-1个值，求另外一个的局部最优值，这样也避免了Lasso回归的损失函数不可导的问题。

3. 为什么L1很多系数可以被压缩为0，L2是被压缩至接近于0
L1和L2正则常被用来解决过拟合问题。而L1正则也常被用来进行特征选择，主要原因在于L1正则化会使得较多的参数为0，从而产生稀疏解，将0对应的特征遗弃，进而用来选择特征。
但为什么L1正则会产生稀疏解呢？这里利用公式进行解释。
假设只有一个参数为w，损失函数为L(w)，分别加上L1正则项和L2正则项后有：
在这里插入图片描述
假设L(w)在0处的倒数为d0，即

则可以推导使用L1正则和L2正则时的导数。

引入L2正则项，在0处的导数
在这里插入图片描述
引入L1正则项，在0处的导数
可见，引入L2正则时，代价函数在0处的导数仍是d0，无变化。而引入L1正则后，代价函数在0处的导数有一个突变。从d0+λ到d0−λ，若d0+λ和d0−λ异号，则在0处会是一个极小值点。因此，优化时，很可能优化到该极小值点上，即w=0处。