人工智能基础概念5：使用L1范数惩罚进行Lasso回归（正则化）解决机器学习线性回归模型幻觉和过拟合的原理

LaoYuanPython

于 2024-04-05 21:26:50 发布

阅读量1.6k

点赞数 18

分类专栏：老猿Python 人工智能基础知识文章标签：人工智能回归机器学习 L1正则化模型幻觉

本文链接：https://blog.csdn.net/laoyuanpython/article/details/137351559

版权

老猿Python 同时被 2 个专栏收录

1128 篇文章 696 订阅

订阅专栏

人工智能基础知识

6 篇文章 5 订阅

订阅专栏

本文详细阐述了L1正则化在机器学习中的原理，包括范数概念、L1正则化如何通过权重压缩防止过拟合，以及它如何通过惩罚机制选择重要特征。通过实例展示了L1正则化如何解决线性回归模型的过拟合问题和模型幻觉现象。

摘要由CSDN通过智能技术生成

一、引言

在老猿CSDN的博文《人工智能基础概念3：模型陷阱、过拟合、模型幻觉》中介绍了通过L1或L2正则化来限制模型的复杂度来解决过拟合的问题，老猿当时并不了解这背后的原理，这2天通过查阅资料终于明白了相关知识，在此一L1正则化来分享一下相关原理。
在这里插入图片描述

二、相关概念

2.1、范数

范数是数学中的一个概念，用于衡量向量的“大小”或者说是长度。在线性代数和相关的数学领域中，范数是定义在向量空间上的一个函数，它将每一个向量映射到非负实数，满足一定的性质，使得这个函数可以被视为该向量空间中的“长度”或“大小”。

范数的常见性质包括：

非负性：对于任意向量x，其范数∥x∥总是大于或等于0，且当且仅当x是零向量时∥x∥=0；
齐次性：对于任意标量α和任意向量x，有∥αx∥=∣α∣∥x∥；
三角不等式：对于任意两个向量x和y，有∥x+y∥≤∥x∥+∥y∥。

以下是几种常见的范数：

L1范数（也称为曼哈顿距离）：对于向量x = (x1, x2, …, xn)，其L1范数定义为 $\|x\|_1 = \sum_{i=1}^{n} |x_i|$
这可以被视为从原点到向量x点的最短路径（曼哈顿距离）；
L2范数（欧几里得范数）：对于向量x = (x1, x2, …, xn)，其L2范数定义为 $\|x\|_2 = \sqrt{x_1^2 + x_2^2 + ... + x_n^2}$ 这是最常见的范数类型，它表示向量在欧几里得空间中的“直线”距离
无穷范数：对于向量xx = (x1, x2, …, xn)，其无穷范数定义为： $\|x\|_{\infty} = \max_{i=1}^{n} |x_i|$ ，这表示向量中的最大绝对值。

范数在多个领域都有广泛的应用，如在优化问题中作为目标函数或约束条件，以及在机器学习中作为正则化项来防止过拟合。通过使用不同的范数，可以引导算法关注不同的目标，比如L1范数倾向于产生稀疏解，而L2范数则倾向于平滑权重分布。

2.2、L1正则化

L1正则化，也称为Lasso正则化（Least Absolute Shrinkage and Selection Operator）、Lasso回归，是一种用于防止过拟合的线性回归方法。

Lasso回归是一种用于处理线性回归模型中变量选择和正则化的技术，它通过目标函数中添加一个与权重绝对值成正比的惩罚项的方法，具体是用一个与模型参数权重对应的L1范数的惩罚项的来实现这一目标。这种方法不仅可以应用于线性回归模型，还可以扩展到其他类型的模型中，尽管在其他模型中的应用可能不如在线性回归中那么直接或常见。

L1正则化的惩罚项是模型权重的绝对值之和。具体来说，如果有一个线性模型，其损失函数为L，那么L1正则化的损失函数可以表示为：

$L_{\text{L1}} = L + \lambda \sum_{i=1}^{n} |w_i|$

其中，wi是模型的权重，即线性模型L中各个xi的系数参数，λ 是正则化参数，它控制着惩罚项的强度。较大的λ值会导致权重的压缩，从而可能产生稀疏权重，即许多权重会变为零。

2.3、最小二乘回归

最小二乘回归（Least Squares Regression）是一种统计学方法，用于估计自变量（解释变量）和因变量（响应变量）之间的关系。该方法的核心思想是通过最小化误差的平方和来寻找数据的最佳函数匹配。
该方法假设模型的自变量xi和因变量y之间是线性关系，即 $y=β0+β_1x_1+β_2x_2+...+β_nx_n$
，其中 x1, x2, …, xn是自变量，而 β1,β2,…,βn是与每个自变量相对应的系数。通过计算每个数据点的实际观测值和模型预测值之间的差异（残差，即 $yi-\hat{yi}$ ），然后计算这些残差的平方和（ $Σ(yi-\hat{yi})²$ ），要求参数β1,β2,…,βn使得残差平方和最小。（请参考老猿在CSDN的博文《人工智能基础概念4：似然函数、最大似然估计案例详解》的相关介绍）

三、L1正则化解决模型幻觉和过拟合的原理分享

3.1、L1正则化解决模型幻觉的过程分析

在线性模型中引入L1正则化后，模型的回归优化过程可以通过以下几个步骤来解释：

初始化权重：优化算法首先会初始化权重向量w的值，这些值可以是随机的或者基于某种启发式方法得到的
计算梯度：在每次迭代中，算法会计算目标函数关于权重向量的梯度。目标函数包括损失函数和L1正则化项，对于L1正则化项，梯度是权重向量 \mathbf{w}w 的元素-wise绝对值
更新权重：根据计算出的梯度，算法会更新权重向量的值。在标准的梯度下降中，权重的更新公式为：
$\mathbf{w}_{\text{new}} = \mathbf{w}_{\text{old}} - \eta \nabla \mathcal{L}(\mathbf{w})$
其中，η 是学习率，∇L(w) 是目标函数关于权重向量的梯度。
应用L1正则化：在L1正则化的影响下，权重更新的过程中会考虑到正则化项。当 λ 增加时，正则化项的影响变得更大，导致更新后的权重更倾向于接近零
检查权重：在更新权重后，算法会检查每个权重的新值。如果一个权重更新后非常接近零（例如，小于某个阈值），算法可能会决定将其设置为精确的零。这样做的原因是，保留一个非常小的非零权重对模型的贡献微乎其微，而且还会因为L1正则化项而带来额外的惩罚
重复迭代：这个过程在多次迭代中重复进行，直到满足停止条件（例如，梯度接近零，损失函数不再显著改善，或者达到预设的迭代次数）

在这里插入图片描述

上述过程中：

通过调整惩罚参数（通常表示为λ）来影响模型的输出值。当λ的值较小时，惩罚项的作用较弱，模型更接近于普通的最小二乘回归。随着λ的增大，惩罚项的作用对模型影响越大，为了抵消λ的影响，就会使得进行回归时会对模型的权重系数各个值wi往下调整，即L1正则化使得每个权重的L1范数项（即权重的绝对值）都会受到惩罚；
权重的惩罚与其绝对值成正比，这意味着，即使是一个很小的权重，只要它不为零，也会受到惩罚。随着正则化参数 λ 的增加，这个惩罚变得更加严厉(即权重各系数的绝对值缩小更厉害)；
在某个点上，优化算法可能会发现小于指定阈值的权重，此时优化算法会将该权重强制设置为0，因为这样可以减少整体的正则化惩罚，而对损失函数的影响不大。这就是“较小的权重会受到更大的影响”。

通过这种方式，优化算法在每次迭代中都会评估权重的更新，并在必要时将它们设置为零，在正则化的影响下，较小的权重更容易被压缩到零。这个过程是自动的，由算法的迭代更新规则和L1正则化项的惩罚性质共同决定的。最终，这导致了一些权重变为零，从而实现了模型的稀疏性和特征选择，从而简化模型。

L2正则化的原理和过程与L1实现方法类似，只是L1正则化的惩罚项是模型权重的绝对值（范数）之和，即 $\|w\|_1 = \sum_{i=1}^{n} |w_i|$ ，L2正则化的惩罚项是模型权重的平方和，即 $\|w\|_2 = \sum_{i=1}^{n} w_i^2$ 。

L2正则化不会将权重压缩至零，而是倾向于均匀地缩减所有权重的大小，这意味着它不具备特征选择的能力，但具有其他优点，在此就不展开介绍。

3.2、L1正则化解决模型幻觉和过拟合的过程举例

假设有一个线性回归模型，其目标函数的损失函数为均方误差（MSE）：
$L(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\mathbf{w} \cdot \mathbf{x}_i))^2$
其中，yi是观测值，Xi是特征向量，W是权重向量。

对上述模型引入L1正则化项，优化问题变为： $\min_{\mathbf{w}} L(\mathbf{w}) + \lambda \|\mathbf{w}\|_1$
其中， $||W||_1 = \sum_{j=1}^{m} |w_j|$ 是权重向量W的L1范数，λ 是正则化参数，控制正则化的强度。