浅谈L2正则化为什么有效

本文探讨了L2正则化为何能有效缓解过拟合,从高斯分布、极大似然估计和极大后验概率估计的角度进行解释。通过假设参数遵循高斯分布,L2正则化确保参数接近0,从而避免模型过于复杂。在数据量充足时,L2正则化能帮助平衡欠拟合与过拟合,提高模型泛化能力。
摘要由CSDN通过智能技术生成

L2正则化为什么有效

无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合,最常用的就是L2正则化,即在损失函数 J ( θ ) J(\theta) J(θ)上加上参数的L2范数 λ ∣ ∣ θ ∣ ∣ 2 \lambda||\theta||_{2} λθ2,不过一般也不开根号了,也就是直接加 λ ∑ i θ i 2 \lambda\sum\limits_{i}\theta_{i}^{2} λiθi2 λ \lambda λ是正则化因子,它的大小决定了你有多想让参数向0靠近。

如果被问到缓解过拟合的方法,那么L2正则化肯定是要知道的。如果继续追问为什么L2正则化有效呢?也许可以回答:因为把参数加到了损失函数里,可以在梯度下降时让参数变得更小,防止模型能够拟合特别复杂的函数。但又要问了,那为什么参数小得接近0就有效呢?仅仅是intuition所以大家都这样做也这样认为吗?事实上这是可以从概率论的角度来解释的,下面用最简单的线性回归来介绍,我们用下标 j j j表示第 j j j个特征,上标 ( i ) \left(i\right) (i)表示数据集中的第 i i i条数据。

高斯分布

设模型参数为 θ \theta θ(bias包含在 θ 0 = b , x 0 = 1 \theta_{0}=b,x_{0}=1 θ0=b,x0=1里了),模型的hypothesis为
y ^ = θ T x \hat{y} = \theta^{T}x y^=θTx
y ^ \hat{y} y^就是我们模型做出的预测, y y y是现实世界真实的标签,不过 y y y是带有噪音的,真实世界的数据不可能是完美的,其中大都夹杂着噪音信号,我们假设
y = θ T x + ϵ y = \theta^{T}x + \epsilon y=θ

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值