正则化和范数

预备知识

在深度学习中,模型的参数优化可以看做最大后验估计,损失函数即为似然函数。所谓正则化,可以视为给予了模型参数估计的一个先验知识。而似然函数*先验信息即为最大后验估计。
θ ∗ = a r g m a x θ ( ∏ i P ( Y i ∣ X i , θ ) ∏ i P ( θ i ) ) = a r g m i n θ ( ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 + ∑ i ln P ( θ i ) ) \theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i)) θ=argmaxθ(iP(YiXi,θ)iP(θi))=argminθ(if(Xi)Yi2+ilnP(θi))

L0范数

L0范数统计向量中非0元素的个数,非0元素越少,意味着越稀疏。模型越稀疏,则过拟合的风险越低,同时可以提高模型的可解释性。

L1正则化

L1范数是L0范数的最优凸近似,比L0范数更利于优化求解。由于L1范数在0值处不可微,所以L1正则化会趋向于让参数=0。L1正则化在损失函数中的形式表现为,在原损失函数上加上权重参数 w w w的绝对值,这相当于赋予 w w w拉普拉斯先验,如果 λ \lambda λ越大,则 w w w的分布越集中在0附近。
P ( θ i ) = λ 2 exp ( − λ ∣ θ i ∣ ) P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|) P(θi)=2λexp(λθi)

L2正则化

L2正则化又叫做岭回归,也叫作权重衰减。L2正则化会让参数趋向于0,在损失函数中的形式表现为,在原损失函数上加上权重参数 w w w的平方,这相当于赋予 w w w高斯先验。
P ( θ i ) = λ π exp ( − λ ∣ ∣ θ i ∣ ∣ 2 ) P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2) P(θi)=π λexp(λθi2)

为什么参数越小越好

原因有二,一是奥卡姆剃刀原则,参照百度百科,可用八个字概括——“如无必要,勿增实体”;二是:在模型发生过拟合时,会导致模型在一个小区间,输出存在剧烈变化。这意味着,模型在这个小区间内的导数值很大,而导数值由权重参数 w w w决定,“大导数值”可以一定程度上等价于“大 w w w”。也就是说,“大 w w w”会导致过拟合,从而 w w w越小越好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值