本文内容受到了知乎相关问题的启发,本人做了一些整理和补充。
l 1 l_1 l1和 l 2 l_2 l2约束
将损失函数 L ( w ) L(w) L(w)看作参数 w w w的函数,则 l 1 l_1 l1约束的形式是:
(1) L = L ( w ) + λ ∥ w ∥ 1 L = L(w) + \lambda\left\Vert w\right\Vert_1 \tag{1} L=L(w)+λ∥w∥1(1)
l 2 l_2 l2约束的形式是:
(2) L = L ( w ) + 1 2 λ ∥ w ∥ 2 2 L = L(w) +\frac{1}{2} \lambda\left\Vert w\right\Vert_2^2 \tag{2} L=L(w)+21λ∥w∥22(2)
解释一
设不添加约束时, L ( w ) L(w) L(w)的图像如下图所示,使用梯度下降法找到的最优解是途中的绿色点。