一文看懂L1、L2正则化的区别

正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。

1 向量范数

对于向量 x = [ x 1 , x 2 , … , x m ] x=\left[x_{1}, x_{2}, \ldots, x_{m}\right] x=[x1,x2,,xm],常用的范数包括:

1.1 1-范数

∥ x ∥ 1 = ∑ i = 1 m ∣ x i ∣ \|x\|_ {1}=\sum_{i=1}^{m}\left|x_{i}\right| x1=i=1mxi
即向量元素绝对值之和, x x x到零点的曼哈顿距离。

1.2 2-范数

∥ x ∥ 1 = ∑ i = 1 m x i 2 \|x\|_ {1}=\sqrt{\sum_{i=1}^{m} x_{i}^{2}} x1=i=1mxi2
2-范数也称为Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,表示 x x x到零点的欧式距离。

1.3 p-范数

∥ x ∥ p = ( ∑ i = 1 m ∣ x i ∣ p ) 1 p \|x\|_ {p}=\left(\sum_{i=1}^{m}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}} xp=(i=1mxip)p1
即向量元素绝对值的p次方和的1/p次幂,表示 x x x到零点的p阶闵氏距离。

1.4 ∞ {\infty} -范数

∥ x ∥ ∞ = max ⁡ i ∣ x i ∣ \|x\|_ {\infty}=\max _ {i}\left|x_{i}\right| x=imaxxi
当p趋向于正无穷时,即所有向量元素绝对值中的最大值。

1.5 向量范数效果

不同的范数

2 正则化

当统计模型把随机误差和噪声也考虑进去而不仅仅是考虑数据的基础关联时,就会出现过过拟合。正则化通过添加参数的惩罚项,防止模型对数据过拟合。
min ⁡ θ 1 N ∑ i = 1 N L ( y i , f θ ( x i ) ) + λ Ω ( θ ) \min _ {\theta} \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left(y_{i}, f_{\theta}\left(x_{i}\right)\right)+\lambda \Omega(\theta) θminN1i=1NL(yi,fθ(xi))+λΩ(θ)

2.1 L 1 L1 L1正则化(套索LASSO)

L 1 L1 L1正则化时,对应惩罚项为 L 1 L1 L1范数:
Ω ( θ ) = ∣ ∣ θ ∣ ∣ 1 = ∑ m = 1 M ∣ θ m ∣ min ⁡ θ 1 N ∑ i = 1 N L ( y i , f θ ( x i ) ) + λ ∥ θ ∥ 1 \begin{aligned} &\Omega(\theta)=|| \theta||_ {1}=\sum_{m=1}^{M} | \theta_{m}| \newline &\min _ {\theta} \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left(y_{i}, f_{\theta}\left(x_{i}\right)\right)+\lambda\|\theta\|_ {1} \end{aligned} Ω(θ)=θ1=m=1MθmθminN1i=1NL(yi,fθ(xi))+λθ1

2.2 L 2 L2 L2正则化(岭回归Ridge)

L 2 L2 L2正则化时,对应惩罚项为 L 2 L2 L2范数的平方:
Ω ( θ ) = ∣ ∣ θ ∣ ∣ 2 2 = ∑ m = 1 M θ m 2 min ⁡ θ 1 N ∑ i = 1 N L ( y i , f θ ( x i ) ) + λ ∥ θ ∥ 2 2 \begin{aligned} &\Omega(\theta)=|| \theta||_ {2}^{2}=\sum_{m=1}^{M} \theta_{m}^{2} \newline &\min _ {\theta} \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left(y_{i}, f_{\theta}\left(x_{i}\right)\right)+\lambda\|\theta\|_ {2}^{2} \end{aligned} Ω(θ)=θ22=m=1Mθm2θminN1i=1NL(yi,fθ(xi))+λθ22

2.3 L 1 、 L 2 L1、L2 L1L2正则化的区别

在这里插入图片描述
红色的椭圆和蓝色的区域的切点就是目标函数的最优解,如果是圆,则很容易切到圆周的任意一点,但是很难切到坐标轴上,因此没有稀疏。但是如果是菱形或者多边形,则很容易切到坐标轴上,导致 W W W中许多项变成零,因此很容易产生稀疏的结果。

总结

  • L 1 L1 L1正则化:它的优良性质是能产生稀疏性,更适用于特征选择。稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”。
  • L 2 L2 L2正则化:使得模型的解偏向于范数较小的 W W W,通过限制 W W W范数的大小实现了对模型空间的限制,从而在一定程度上避免了过拟合。并不具有产生稀疏解的能力,得到的系数仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。
  • 常用 L 1 、 L 2 L1、L2 L1L2正则化,当p<1时,模型进行稀疏性学习。

参考

https://www.jianshu.com/p/c9bb6f89cfcc  
https://blog.csdn.net/qq_25847123/article/details/90400678

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值