L1—— 假设的是模型的参数取值满足拉普拉斯分布,Lasso 回归
L2 ——假设的模型参数是满足高斯分布,岭回归
所谓的范式其实就是加上对参数的约束,使得模型不会 overfit。
O b j ( F ) = L ( F ) + γ ⋅ ∥ w ⃗ ∥ 1 Obj(F)=L(F)+γ⋅∥w⃗ ∥_1 Obj(F)=L(F)+γ⋅∥w⃗∥1
L ( F ) = ∑ i = 1 N ( y i − w ⋅ x i ) 2 L(F)=\sum_{i=1}^{N}(y_i-w·x_i)^2 L(F)=i=1∑N(yi−w⋅xi)2
对于目标函数 Obj(F) 来说,实际上是要在正则项的等值线与损失函数 L(F) 的等值线(w 的二次曲线,即图中的平方误差项等值线) 中寻找一个交点,使得二者的 和最小。
对于 L1-正则项来说,因为 L1-正则项的等值线是一组菱形,这些交点容易落在坐标轴上。因此,另一个参数的值在这个交点上就是零,从而实现了稀疏化。
对于 L2-正则项来说,因为 L2-正则项的等值线是一组圆形。所以,这些交点可能落在整个平面的任意位置。所以它不能实现「稀疏化」。但是,另一方面,由于 (w1,w2) 落在圆上,所以它们的值会比较接近。这就是为什么 L2-正则项可以使得参数在零附近稠密而平滑。