定义
- 正则化
通过限制模型参数的范数过大,降低模型复杂度,从而防止过拟合。 - 范数
- 用于衡量向量和矩阵的大小
- l 1 l_1 l1-norm: ∥ w ∥ 2 = ∑ i w i 2 {\Vert \bold{w} \Vert}_2=\sqrt{\sum_{i} {w_i}^2} ∥w∥2=∑iwi2
- l 2 l_2 l2-norm: ∥ w ∥ 1 = ∑ i ∣ w i ∣ {\Vert \bold{w} \Vert}_1=\sum_{i} |w_i| ∥w∥1=∑i∣wi∣
- l p l_p lp-norm: ∥ w ∥ p = ( ∑ i w i p ) 1 p {\Vert \bold{w} \Vert}_p=(\sum_{i} {w_i}^p)^{\frac{1}{p}} ∥w∥p=(∑iwip)p1
- l 0 l_0 l0-norm: ∥ w ∥ 0 = # ( i ∣ x i ≠ 0 ) {\Vert \bold{w} \Vert}_0=\#(i|x_i \neq 0) ∥w∥0=#(i∣xi=0),即非零分量个数
- l ∞ l_\infty l∞-norm: ∥ w ∥ ∞ = m a x ( ∣ w 1 ∣ , ∣ w 2 ∣ , . . . , ∣ w n ∣ ) {\Vert \bold{w} \Vert}_\infty=max(|w_1|,|w_2|,...,|w_n|) ∥w∥∞=max(∣w1∣,∣w2∣,...,∣wn∣)
- 正则项(正则化的体现)多和损失函数搭配,作为算法的优化目标函数,如ridge回归算法=线性回归+
l
2
l_2
l2-norm、lasso回归算法=线性回归+
l
1
l_1
l1-norm
- 损失函数用于降低模型拟合误差即经验风险最小化,正则项用于降低模型复杂度即结构风险最小化
区别
l 2 l_2 l2-norm会使参数 w w w各分量都趋向于0,而 l 1 l_1 l1-norm则使其部分分量等于0、得到稀疏的 w w w(顺便就达到特征选择的效果)
- 以图直观感觉,假设
w
w
w是二维向量,彩色圈圈为损失函数
f
(
x
)
=
(
y
−
w
T
x
)
2
f(x)=(y-w^Tx)^{2}
f(x)=(y−wTx)2的值等高线,圈圈直径越大、代表损失函数值越大,而黑色为正则项的等高线,离远点越远、数值越大,现在要找两边等高线的交点使得二值之和最小。
- 当二值之和最小时,交点一定两个等高线相切的点,不然固定其中一个等高线,肯定会有更小的等高线与之相交,与二值之和最小矛盾。
- 当二值之和最小时,交点一定两个等高线相切的点,不然固定其中一个等高线,肯定会有更小的等高线与之相交,与二值之和最小矛盾。
- 接下来证明:使用 l 1 l_1 l1-norm,目标函数最小时为什么分量容易等于0?
简化问题,
w
w
w是一个一维向量,那么目标函数为
m
i
n
w
f
(
w
)
+
C
∣
w
∣
min_w f(w)+C|w|
minwf(w)+C∣w∣,其中系数
C
>
0
C>0
C>0
若要w=0为极值点使目标函数最小,则必要条件是
w
w
w两边关于目标函数的导数要异号即
(
f
′
(
0
)
−
C
)
(
f
′
(
0
)
+
C
)
<
0
(f'(0)-C)(f'(0)+C)<0
(f′(0)−C)(f′(0)+C)<0,
推出当
C
>
∣
f
′
(
0
)
∣
C>|f'(0)|
C>∣f′(0)∣时,
w
=
0
w=0
w=0就有可能是目标函数的极小点