【机器学习】贝叶斯角度看L1，L2正则化

最新推荐文章于 2025-03-05 20:18:02 发布

哈乐笑

最新推荐文章于 2025-03-05 20:18:02 发布

阅读量1w

点赞数 6

分类专栏：机器学习文章标签：机器学习正则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haolexiao/article/details/70243292

版权

本文从贝叶斯学派和频率学派的角度探讨正则化，解释了L1正则化对应拉普拉斯先验，L2正则化对应高斯先验。通过引入参数的先验分布，正则化帮助约束模型参数，L1倾向于稀疏模型，L2则倾向于小参数值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前总结过不同正则化方法的关系【不过那篇文章被吞了】当时看的资料里面提到了一句话就是：正则化等价于对模型参数引入先验分布，而L1正则化相当于参数中引入拉普拉斯分布先验，而L2分布则相当于引入了高斯分布先验。当时这这句话不是很理解，今天又找了一下相关的资料研究了一下。

贝叶斯学派和频率学派

要解释上面的问题，需要先区别一下贝叶斯学派和频率学派的区别。
本质上频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。

频率学派

认为需要推断的参数 $θ$ 视作未知的定值，而样本X是随机的，其着眼点在样本空间，有关的概率计算都是针对 $X$ 的分布。频率学派认为参数虽然我们不知道，但是它是固定的，我们要通过随机产生的样本去估计这个参数，所以才有了最大似然估计这些方法。

贝叶斯学派

把参数 $θ$ 也视作满足某一个分布的随机变量，而样本X是固定的，其着眼点在参数空间，重视参数 $θ$ 的分布，固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

P (θ | X) =

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。