正则化的作用以及L1和L2正则化的区别

最新推荐文章于 2024-07-26 12:18:59 发布

funNLPer

最新推荐文章于 2024-07-26 12:18:59 发布

阅读量3.1k

点赞数 5

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/orangerfun/article/details/105037862

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1. L1正则和L2正则的作用

正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。

L1正则化可以产生稀疏权值矩阵，可以用于特征选择，一定程度上，L1也可以防止过拟合

L2正则化它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量；L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。这样做可以提高模型的泛化能力，降低过拟合的风险。

2. L1正则和L2正则的原理

在原始目标函数的基础上添加正则化相当于，在参数原始的解空间添加了额外的约束。
L1正则化对解空间添加的约束是：
$\sum||w||_1\leq C$

L2正则化对解空间添加的约束是：
$\sum||w||_2^{2}\leq C$

为了形象化的说明，以二维参数空间为例，假设有两个参数 $W_1$ 和 $W_2$
则L1正则化对解空间的约束为： $|w_1|+|w_2|\leq C$
L2对解空间的约束为： $w_1^2+w_2^2\leq C$

在二维平面上绘制以上两个式子的图像，可得L1约束的范围是一个顶点在坐标轴上的菱形，L2约束的范围是一个圆形。

在这里插入图片描述
上面的图，左面是L2约束下解空间的图像，右面是L1约束下解空间的图像。

蓝色的圆圈表示损失函数的等值线。同一个圆上的损失函数值相等的，圆的半径越大表示损失值越大，由外到内，损失函数值越来越小，中间最小

如果没有L1和L2正则化约束的话，w1和w2是可以任意取值的，损失函数可以优化到中心的最小值的，此时中心对应的w1和w2的取值就是模型最终求得的参数

填了L1和L2正则化约束就把解空间约束在了黄色的平面内。黄色图像的边缘与损失函数等值线的交点，便是满足约束条件的损失函数最小化的模型的参数的解。由于L1正则化约束的解空间是一个菱形，所以等值线与菱形端点相交的概率比与线的中间相交的概率要大很多，端点在坐标轴上，一些参数的取值便为0。L2正则化约束的解空间是圆形，所以等值线与圆的任何部分相交的概率都是一样的，所以也就不会产生稀疏的参数。

L2为什么倾向于产生分散而小的参数呢？
因为求解模型的时候要求，在约束条件满足的情况下最小化损失函数， $\sum||w||_2^{2}$ 也应该尽可能的小

用一个实例来说明：
设输入向量 $x = [1, 1, 1, 1]$ ，两个权重向量 $w_1^T=[1,0,0,0]$ ， $w_2^T=[0.25,0.25,0.25,0.25]$ 。那么 $w_1^Tx=w_2^Tx=1$ 两个权重向量都得到同样的内积，但是 $w_1$ 的L2惩罚是1.0，而 $w_2$ 的L2惩罚是0.25。因此，根据L2惩罚来看， $w_2$ 更好，因为它的正则化损失更小。从直观上来看，这是因为 $w_2$ 的权重值更小且更分散。所以L2正则化倾向于是特征分散，更小。

另一种公式推导（以线性回归为例）：
未加正则的梯度下降迭代为：
$\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$

加了L2正则的梯度下降迭代为：
$\theta_{j}:=\theta_{j}\left(1-\alpha \frac{\lambda}{m}\right)-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$