L1正则化和L2正则化

最新推荐文章于 2023-05-27 22:41:35 发布

guofei_fly

最新推荐文章于 2023-05-27 22:41:35 发布

阅读量317

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/guofei_fly/article/details/100584209

版权

机器学习专栏收录该内容

39 篇文章 10 订阅

订阅专栏

一、向量和矩阵的范数

范数是一个函数，常用来表示某个向量空间里（或矩阵）中的每个向量的长度或大小。

1.1 向量的范数

对于一个向量 $\boldsymbol{x}=(x_1,x_2,...x_n)$ ，给出如下的范数定义：
0-范数： $||\boldsymbol{x}||_0=\sum_i I(x_i \neq 0)$ ，表示向量中非零元素的个数，反映了向量元素的稀疏性
1-范数： $||\boldsymbol{x}||_1=\sum_i|x_i|$ ，即向量各元素的绝对值之和
2-范数： $||\boldsymbol{x}||_2=(\sum_ix_i^2)^{1/2}$ ，即向量各元素的根号平方和
$\infty$ -范数： $||\boldsymbol{x}||_\infty=max(x_i)$ ，即向量各元素中的最大值
$-\infty$ -范数： $||\boldsymbol{x}||_{-\infty}=min(x_i)$ ，即向量各元素中的最小值
$p$ -范数： $||\boldsymbol{x}||_p=(\sum_ix_i^p)^{1/p}$
不难发现， $p$ 数越大，越容易倾向于倾向大值，而忽略小值，导致对异常值的更加敏感（比如MSE比MAE对异常值更敏感）。随着 $p$ 的变化，范数的变化特点可通过下图直观体现出来：
范数p的变化

1.2 矩阵的范数

对于矩阵 $A$ ，其 $i$ 行 $j$ 列元素为 $a_{ij}$ ，给出如下的范数定义
1-范数： $||A||_1=\max\limits_{j}\sum\limits_i|a_{ij}|$ ，也称列和范数，即矩阵各列中元素绝对值之和最大的值
2-范数： $||A||_2=\max\lambda_i$ ， $\lambda_i$ 为矩阵特征值，即矩阵的最大特征值，几何意义上表示矩阵主特征方向的拉伸比例，也称谱范数
$\infty$ -范数： $||A||_\infty=\max\limits_{i}\sum\limits_j|a_{ij}|$ ，也称行和范数，即矩阵各行中元素绝对值之和最大的值
F-范数： $||A||_F=(\sum\limits_{i,j}a_{ij}^2)^{1/2}$ ，即矩阵各元素根号平方和
核-范数： $||A||_*=\sum\limits_i\lambda_i$ ，即矩阵各奇异值之和

二、正则化的初衷

设某个参数模型在训练样本上的经验损失函数为 $J(f(\boldsymbol\omega))$ ，当模型的复杂度超过数据真实的特征空间时，会发生过拟合问题。解决过拟合问题的一种重要手段为正则化(regularize)，即通过限制 $\boldsymbol\omega$ 的取值范围来简化模型，降低模型的复杂度。
通过在经验损失函数中加入 $\boldsymbol\omega$ 限制函数的损失函数又被称为结构损失函数： $L(\boldsymbol\omega,\lambda)=J(f(\boldsymbol\omega))+\Omega(\boldsymbol\omega,\lambda)$

一种直观上的方法是减少 $\boldsymbol\omega$ 的个数，即添加参数的0-范数约束，但考虑到其不能求导，所以常采用参数的1-范数约束或/和2-范数约束，在取得类似效果的同时，保证损失函数求导的便利性，这两种约束形式被分别称为L1正则化和L2正则化。
L1正则化的损失函数： $L(\boldsymbol\omega,\lambda)=J(f(\boldsymbol\omega))+\lambda\sum\limits_i|w_i|$
L2正则化的损失函数： $L(\boldsymbol\omega,\lambda)=J(f(\boldsymbol\omega))+\lambda\sum\limits_iw_i^2$
此外，还经常使用L1正则和L2正则的加权结果，即弹性网络：
$\alpha\sum\limits_i|w_i|+\beta\sum\limits_iw_i^2$

三、从带约束的优化问题角度理解正则化

为什么通过添加合理的参数约束函数，就可以达到简化模型的目的？
一种直观的解释（见下图）是：训练样本中存在各类噪声值，导致数据波动很大，如果单纯的降低经验损失，很容易让模型计入噪声信息，表现在参数上即参数数量的增加和参数值的增大。通过L1正则化和L2正则化等正则化方法，可以对过多的参数和过大的参数达到惩罚，从而在经验损失值和模型的复杂度得到折中，而较简单的模型往往泛化能力更好。
过拟合的正则化约束
上面的解释从数学上来看，可以表示为带约束的优化问题:
$min\quad J(f(\boldsymbol\omega))\\s.t. \quad \Omega(\boldsymbol\omega))<=C$
其中 $C$ 取决于对参数惩罚的权重，惩罚越大， $C$ 越小。对于线性模型，可以将 $C$ 进行归一化，并不影响最后模型的效果。

3.1 L1正则化的最优化问题

L1正则对应的优化问题为：
$min\quad J(f(\boldsymbol\omega))\\s.t. \quad \sum|w_i|<=C$
当 $J$ 为凸函数时，等效于求解如下的最优化问题：
$min\quad J(f(\boldsymbol \omega)) + \lambda(\sum|w_i|-C)$
其中 $\lambda>0$
其梯度为 $\frac{\partial J}{\partial w_i}+\lambda sign(w_i)$ ，因此参数迭代公式为： $w_i:=w_i-\mu(\frac{\partial J}{\partial w_i}+\lambda sign(w_i))$
注意到当 $w_i>0$ 时， $w_i$ 随着迭代值减小；而当 $w_i<0$ 时， $w_i$ 随着迭代值增大。即参数趋向于0，意味着特征趋向于稀疏化。

从二维几何的角度来看（见下图），原型表示损失函数 $J$ 的等值线，而四边形为L1正则项。通过限制参数 $w_1,w_2$ 在四边形边和内部变动，最优解 $w^*$ 更趋向于取四边形的顶点（即 $signw_i$ 的不可导处），从而导致某些参数取0。所以L1正则会是特征稀疏化，在一定程度上天然的有着特征选择（嵌入式）的功能。
L1正则的几何解释

3.2 L2正则化的最优化问题

L2正则对应的优化问题为：
$min\quad J(f(\boldsymbol\omega))\\s.t. \quad \sum w_i^2<=C$
当 $J$ 为凸函数时，等效于求解如下的最优化问题：
$min\quad J(f(\boldsymbol \omega)) + \lambda(\sum w_i^2-C)$
其中 $\lambda>0$
其梯度为 $\frac{\partial J}{\partial w_i}+\lambda sign(w_i)$ ，因此参数迭代公式为： $w_i:=w_i-\mu(\frac{\partial J}{\partial w_i}+2\lambda w_i)$
可见参数在迭代过程中，由于考虑了L2正则化项 $2\mu \lambda w_i$ ，所以下降速度更快。即L2正则化会使得参数更加光滑。
从二维几何的角度来看（见下图），原型表示损失函数 $J$ 的等值线，而圆形为L2正则项。通过限制参数 $w_1,w_2$ 在圆形边和内部变动，最优解 $w^*$ 更趋向于正则化边界圆形处切线与损失函数 $J$ 等值线切线同方向的区域，使得 $w_1,w_2$ 取值更小、更均衡。
L2正则化的几何解释

四、从最大后验概率角度理解正则化

对正则化的另一种理解来源于贝叶斯框架的参数最大后验概率，所谓的贝叶斯框架即“后验=先验+证据/数据”。在后面的朴素贝叶斯方法中会做详细介绍，这里做直接的使用。
在贝叶斯框架下，机器学习模型参数的后验概率可表示成:
$P(\boldsymbol \omega|D)= \frac{P(\boldsymbol \omega)P(D|\boldsymbol \omega)}{P(D)}$
其中 $P (D)$ 为数据的固有属性（与参数无关的定值），可不考虑，即:
$P(\boldsymbol \omega|D) \sim P(\boldsymbol \omega)P(D|\boldsymbol \omega)$
其中 $P(D|\boldsymbol \omega)$ 反映了模型的能力，与模型切身相关（可参见线性回归(一)基础理论中的相关论述），而 $P(\boldsymbol \omega)$ 则是关于参数本身的先验概率，即对参数的某种约束。

4.1 L1正则化的贝叶斯视角

在L1正则中，先验假设参数符合拉普拉斯分布。
先简单介绍下拉普拉斯分布。如果随机变量的概率密度函数分布为:
$f(x|\mu, b)=\frac{1}{2b}exp{(-\frac{|x-\mu|}{b})}$
则称为拉普拉斯分布。其中 $\mu$ 为期望， $b$ 为振幅。

假设各参数独立，并满足Laplace(0,1)的先验概率，则参数的最大后验似然函数可表示成：
$L(\boldsymbol \omega|D)=P(D|\boldsymbol \omega)\prod P(w_i)=P(D|\boldsymbol \omega)\prod\limits_{i}exp^{-|w_i|}$
对应的对数似然函数为：
$lnL(\boldsymbol \omega|D)=lnP(D|\boldsymbol \omega)+\sum\limits_i-|w_i|$
右端第二项即为L1正则项。

4.2 L2正则化的贝叶斯视角

在L2正则中，先验假设参数符合高斯分布。
假设各参数独立，并满足标准正态分布 $N (0, 1)$ 的先验概率，则参数的最大后验似然函数可表示成：
$L(\boldsymbol \omega|D)=P(D|\boldsymbol \omega)\prod P(w_i)=P(D|\boldsymbol \omega)\prod\limits_{i}exp^{-w_i^2}$
对应的对数似然函数为：
$lnL(\boldsymbol \omega|D)=lnP(D|\boldsymbol \omega)+\sum\limits_iw_i^2$
右端第二项即为L2正则项。