预备知识
在深度学习中,模型的参数优化可以看做最大后验估计,损失函数即为似然函数。所谓正则化,可以视为给予了模型参数估计的一个先验知识。而似然函数*先验信息即为最大后验估计。
θ
∗
=
a
r
g
m
a
x
θ
(
∏
i
P
(
Y
i
∣
X
i
,
θ
)
∏
i
P
(
θ
i
)
)
=
a
r
g
m
i
n
θ
(
∑
i
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
+
∑
i
ln
P
(
θ
i
)
)
\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))
θ∗=argmaxθ(i∏P(Yi∣Xi,θ)i∏P(θi))=argminθ(i∑∣∣f(Xi)−Yi∣∣2+i∑lnP(θi))
L0范数
L0范数统计向量中非0元素的个数,非0元素越少,意味着越稀疏。模型越稀疏,则过拟合的风险越低,同时可以提高模型的可解释性。
L1正则化
L1范数是L0范数的最优凸近似,比L0范数更利于优化求解。由于L1范数在0值处不可微,所以L1正则化会趋向于让参数=0。L1正则化在损失函数中的形式表现为,在原损失函数上加上权重参数
w
w
w的绝对值,这相当于赋予
w
w
w拉普拉斯先验,如果
λ
\lambda
λ越大,则
w
w
w的分布越集中在0附近。
P
(
θ
i
)
=
λ
2
exp
(
−
λ
∣
θ
i
∣
)
P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)
P(θi)=2λexp(−λ∣θi∣)
L2正则化
L2正则化又叫做岭回归,也叫作权重衰减。L2正则化会让参数趋向于0,在损失函数中的形式表现为,在原损失函数上加上权重参数
w
w
w的平方,这相当于赋予
w
w
w高斯先验。
P
(
θ
i
)
=
λ
π
exp
(
−
λ
∣
∣
θ
i
∣
∣
2
)
P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)
P(θi)=πλexp(−λ∣∣θi∣∣2)
为什么参数越小越好
原因有二,一是奥卡姆剃刀原则,参照百度百科,可用八个字概括——“如无必要,勿增实体”;二是:在模型发生过拟合时,会导致模型在一个小区间,输出存在剧烈变化。这意味着,模型在这个小区间内的导数值很大,而导数值由权重参数 w w w决定,“大导数值”可以一定程度上等价于“大 w w w”。也就是说,“大 w w w”会导致过拟合,从而 w w w越小越好。