拉格朗日乘法和L1、L2正则化

天莓烦恼

已于 2022-10-30 18:59:47 修改

阅读量2.5k

点赞数 4

分类专栏：机器学习数学基础文章标签：几何学机器学习线性代数

于 2022-01-01 15:26:13 首次发布

本文链接：https://blog.csdn.net/clearloveTIM/article/details/122267845

版权

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

数学基础

4 篇文章

订阅专栏

本文介绍了拉格朗日乘法在约束优化中的应用，通过L1和L2正则化的实例演示如何在过拟合与欠拟合间平衡，以及它们如何通过特征提取帮助模型选择关键变量。重点讲解了C与λ的关系以及两种正则化的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

拉格朗日乘法和L1、L2正则化

本篇博客是作为学习正则化的时候的笔记，难免可能存在一些错误，欢迎各位指出不对的地方。

拉格朗日乘法

在介绍L1、L2正则化之前，必须先介绍的是拉格朗日乘法。拉格朗日乘法解决的是在约束条件下求一个函数的极值问题。

例如以L2正则化为例，如下图所示，彩色椭圆等高线是目标函数 J(w)，约束条件是黑色圆

请添加图片描述

$\sum_i^dw_i^2 \leq C(d是维度) 的情况下最小化目标函数 J(w)\\ 将约束条件改写为g(w) = \sum_i^dw_i^2-C = 0\\$

要在约束条件下取到极值，在本例中，很显然即意味着是在彩色等高线与黑色圆的第一次交点处取到，而在交点处取到极值，则意味着两个函数有着相同的切平面，因此也有公法线。而对于曲面来说，对每个方向求偏导就是其法向量。

$J(w)的法向量：(\frac{\partial J}{\partial w_1} \vec w_1, \frac{\partial J}{\partial w_2} \vec w_2)\\ g(w)的法向量：(\frac{\partial g}{\partial w_1} \vec w_1, \frac{\partial g}{\partial w_2} \vec w_2)$

又因为二者的法向量必定平行，我们通常让其作为相加的方式，有

$\lambda = |{\frac{\nabla J(w)}{\nabla g(w)}}|\\$
即
$\nabla J(w) +\lambda\nabla g(w) = 0$

question

为什么在交点处取得极值？

答：因为这是离目标函数最低点最近的位置
为什么不能是减号？

答：加减都可以，习惯上取加

构造一个新函数，
$J^{new}(w) = J^{old}(w) + \lambda g(w)$
根据上述结论，对这个函数有
$\begin{aligned} &\begin{cases} & \frac{\partial J^{old}(w)}{\partial w_1} + \lambda \frac{\partial g(w)}{\partial w_1} = 0\\ \space\\ & \frac{\partial J^{old}(w)}{\partial w_2} + \lambda \frac{\partial g(w)}{\partial w_2} = 0\\ \space\\ & g(w) = 0 \end{cases} \end{aligned}$
因此，实际上上面的方程组大概率可以解出
$w_1^0, w_2^0, \lambda$
三个未知数的。这里举个例子：

我们假设目标函数为
$J^{old}(w) = -2e^{-(w_1-1)^2-(w_2-1)^2}$
我们的约束条件为
$g(w) = w_1^2+w_2^2-c^2$
按照上述方法得到方程组
$\begin{cases} 4e^{-(w_1-1)^2-(w_2-1)^2}(w_1-1) + \lambda2w_1 = 0\\ 4e^{-(w_1-1)^2-(w_2-1)^2}(w_2-1) + \lambda2w_2 = 0\\ w_1^2+w_2^2-c^2 = 0 \end{cases}$
由于方程过于复杂，我们用python来辅助求解,可以求得
$\begin{cases} w_1 = -\frac{\sqrt{2}}{2}\\ w_2=-\frac{\sqrt(2)}{2}\\ \lambda = -(2 + 2\sqrt2)e^{-3 - 2\sqrt2}\\ \end{cases} 或 \space \begin{cases} w_1 = \frac{\sqrt{2}}{2}\\ w_2=\frac{\sqrt(2)}{2}\\ \lambda = -(2 - 2\sqrt2)e^{-3 + 2\sqrt2}\\ \end{cases}\\$
可视化结果为：

请添加图片描述

一个是最远处，一个是最近处。我们修改了代码中关于 λ 的符号，结果是一样的，证明加减都是没有关系的。

C和λ的关系

C 和 λ 是反比关系（例如sklearn中的逻辑回归函数的参数c，就是正则化系数的倒数），这里以L2范数为例：

$w_1^2+w_2^2-C\\ \space\\ \lambda = |\frac{\nabla J(w)}{\nabla g(w)}| = |\frac{\nabla J(w)}{2w_1+2w_2}| \sim \frac{|\nabla J(w)|}{C}\\$

L1、L2正则化

如上所述，我们的损失函数就是 J(w) ，我们发现如果不给参数加上限制， $w_1$ 和 $w 2$ 可能会导致模型过拟合的问题，即损失函数为0了，那么当他遇到含有噪声的时候，就会把噪声也学进去。其次，当参数过大的时候，样本一点点微小的变动，都会导致变化非常大。例如
$y = w_1 * x_1 + w_2 * x_2$
当 $w_1$ 和 $w_2$ 都非常大的时候，只要 $x_1$ 和训练数据相差一点点，都会导致 $y$ 变化特别大.

出于以上的目的，我们需要对参数 w 进行约束。比如进行L2正则化，即
$\sum_iw_i^2 \leq C$
因此
$\sum_iw_i^2-C = 0\\\\$
由拉格朗日乘法，构建一个新的目标函数
$J^{new}(w) = J^{old}(w) + \lambda g(w)\\$
其中，g(w)中的 C 是超参，我们认为是已知的，

那么很明显，当 C 越大，也就是 λ 越小的时候，约束条件几乎可以包含原来函数的最优值的时候，就意味着其实没有进行正则化惩罚。这和表达式中的含义也是一样的，λ 越小，则正则化函数几乎就没用上，就可能会导致过拟合；以上述的情况为例，C很大的时候，就把红色的最低点包括在内了，这与我们表达式的结论一致。而当 C 越小，也就是 λ 越大的时候，约束条件过于严苛，根本到不了一个比较小的地方，就可能会导致欠拟合。