浅谈L2正则化为什么有效

最新推荐文章于 2023-05-25 16:21:16 发布

TianHongZXY

最新推荐文章于 2023-05-25 16:21:16 发布

阅读量984

点赞数 1

分类专栏：深度学习笔记文章标签：机器学习深度学习概率论正则化人工智能

本文链接：https://blog.csdn.net/qq_40367479/article/details/106648161

版权

本文探讨了L2正则化为何能有效缓解过拟合，从高斯分布、极大似然估计和极大后验概率估计的角度进行解释。通过假设参数遵循高斯分布，L2正则化确保参数接近0，从而避免模型过于复杂。在数据量充足时，L2正则化能帮助平衡欠拟合与过拟合，提高模型泛化能力。

摘要由CSDN通过智能技术生成

L2正则化为什么有效

无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合，最常用的就是L2正则化，即在损失函数 $J(\theta)$ 上加上参数的L2范数 $\lambda||\theta||_{2}$ ，不过一般也不开根号了，也就是直接加 $\lambda\sum\limits_{i}\theta_{i}^{2}$ ， $\lambda$ 是正则化因子，它的大小决定了你有多想让参数向0靠近。

如果被问到缓解过拟合的方法，那么L2正则化肯定是要知道的。如果继续追问为什么L2正则化有效呢？也许可以回答：因为把参数加到了损失函数里，可以在梯度下降时让参数变得更小，防止模型能够拟合特别复杂的函数。但又要问了，那为什么参数小得接近0就有效呢？仅仅是intuition所以大家都这样做也这样认为吗？事实上这是可以从概率论的角度来解释的，下面用最简单的线性回归来介绍，我们用下标 $j$ 表示第 $j$ 个特征，上标 $\left(i\right)$ 表示数据集中的第 $i$ 条数据。

高斯分布

设模型参数为 $\theta$ （bias包含在 $\theta_{0}=b,x_{0}=1$ 里了），模型的hypothesis为
$\hat{y} = \theta^{T}x$
$\hat{y}$ 就是我们模型做出的预测， $y$ 是现实世界真实的标签，不过 $y$ 是带有噪音的，真实世界的数据不可能是完美的，其中大都夹杂着噪音信号，我们假设
$\theta^{T}x + \epsilon$

最低0.47元/天解锁文章

TianHongZXY

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
浅谈L2正则化为什么有效

L2正则化为什么有效无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合，最常用的就是L2正则化，即在损失函数J(θ)J(\theta)J(θ)上加上参数的L2范数λ∣∣θ∣∣2\lambda||\theta||_{2}λ∣∣θ∣∣2，不过一般也不开根号了，也就是直接加λ∑iθi2\lambda\sum\limits_{i}\theta_{i}^{2}λi∑θi2，λ\lambdaλ是正则化因子，它的大小决定了你有多想让参数向0靠近。如果被问到缓解过拟合的方法，那么L2正则化肯定是要知
复制链接

扫一扫