角度一:解空间形状
为什么会转变为解空间问题呢?
KKT条件:“带正则项”和“带约束条件”是等价的。
为了约束w的可能取值空间从而防止过拟合, 我们为该最优化问题加上一个约束.
角度二:函数叠加
- 原始目标函数曲线-棕色:最小值点在蓝色处,显然非0;
- L1曲线-绿色曲线:最小值在红色处,为0;
- L2曲线-黄色曲线:最小值在黄色处,非0;
L1:求导,原点左边递减,右边递增即可说明最小点在原点处。
对 L ( w ) = l ( w ) + C ∣ w ∣ L(w) = l(w) + C|w| L(w)=l(w)+C∣w∣求导, C ∣ w ∣ C|w| C∣w∣在原点左边为-C,在原点右边为C,因此,只要原目标函数的导数小于C,那么带正则项的始终是递减的,在右边始终是递增的。最小值点自然在原点处。
L2 :
如果想让L2在原点处导数为0,那么原目标函数也必须在原点处导数为0。概率相对于L1大大减小。所以只有减小 w w w的功能。