L1损失函数
L
1
=
1
N
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
+
C
∣
w
∣
1
L1=\frac{1}{N}\sum_{i=1}^{N}\left ( y _{i}-w^{T}x_{i}\right )^{2}+C\left | w \right |_{1}
L1=N1i=1∑N(yi−wTxi)2+C∣w∣1
- L1正则化可产生稀疏模型,具有选择作用
经过上图观察可以看到,几乎对于很多原函数等高曲线,和某个菱形相交的时候及其容易相交在坐标轴,也就是说最终的结果,解的某些维度及其容易是0,比如上图最终解是: w = ( 0 , x ) w=\left ( 0,x \right ) w=(0,x)这也就是所说的L1更容易得到稀疏解(解向量中0比较多)的原因。 - L1正则先验分布服从拉普拉斯分布,具体推导过程如下:
L2损失函数
L 1 = 1 N ∑ i = 1 N ( y i − w T x i ) 2 + C ∣ ∣ w ∣ ∣ 2 2 L1=\frac{1}{N}\sum_{i=1}^{N}\left ( y _{i}-w^{T}x_{i}\right )^{2}+C\left | |w \right ||_{2}^{2} L1=N1i=1∑N(yi−wTxi)2+C∣∣w∣∣22
- L1正则化具有避免过拟合作用
- L1正则先验分布服从高斯分布,具体推导过程如下: