正则化和范数

最新推荐文章于 2023-12-31 01:48:46 发布

NeverMoreH

最新推荐文章于 2023-12-31 01:48:46 发布

阅读量551

点赞数

分类专栏： # 面试笔试面试深度学习、机器学习文章标签：正则化范数 L0 L1 L2

本文链接：https://blog.csdn.net/ms961516792/article/details/106198202

版权

深度学习、机器学习同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

笔试面试

11 篇文章 1 订阅

订阅专栏

面试

4 篇文章 1 订阅

订阅专栏

预备知识

在深度学习中，模型的参数优化可以看做最大后验估计，损失函数即为似然函数。所谓正则化，可以视为给予了模型参数估计的一个先验知识。而似然函数*先验信息即为最大后验估计。
$\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))$

L0范数

L0范数统计向量中非0元素的个数，非0元素越少，意味着越稀疏。模型越稀疏，则过拟合的风险越低，同时可以提高模型的可解释性。

L1正则化

L1范数是L0范数的最优凸近似，比L0范数更利于优化求解。由于L1范数在0值处不可微，所以L1正则化会趋向于让参数=0。L1正则化在损失函数中的形式表现为，在原损失函数上加上权重参数 $w$ 的绝对值，这相当于赋予 $w$ 拉普拉斯先验，如果 $\lambda$ 越大，则 $w$ 的分布越集中在0附近。
$P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)$

L2正则化

L2正则化又叫做岭回归，也叫作权重衰减。L2正则化会让参数趋向于0，在损失函数中的形式表现为，在原损失函数上加上权重参数 $w$ 的平方，这相当于赋予 $w$ 高斯先验。
$P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)$

为什么参数越小越好

原因有二，一是奥卡姆剃刀原则，参照百度百科，可用八个字概括——“如无必要，勿增实体”；二是：在模型发生过拟合时，会导致模型在一个小区间，输出存在剧烈变化。这意味着，模型在这个小区间内的导数值很大，而导数值由权重参数 $w$ 决定，“大导数值”可以一定程度上等价于“大 $w$ ”。也就是说，“大 $w$ ”会导致过拟合，从而 $w$ 越小越好。

NeverMoreH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则化和范数

目录预备知识L0范数L1正则化L2正则化为什么参数越小越好预备知识在深度学习中，模型的参数优化可以看做最大后验估计，损失函数即为似然函数。所谓正则化，可以视为给予了模型参数估计的一个先验知识。而似然函数*先验信息即为最大后验估计。θ∗=argmaxθ(∏iP(Yi∣Xi,θ)∏iP(θi))=argminθ(∑i∣∣f(Xi)−Yi∣∣2+∑ilnP(θi))\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=a
复制链接

扫一扫

专栏目录