L1L2正则化

最新推荐文章于 2024-05-18 10:19:20 发布

nn0821

最新推荐文章于 2024-05-18 10:19:20 发布

阅读量204

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nn0821/article/details/104366523

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

总结：

为什么正则化可以降低过拟合？

最佳解释是：

从MAP最大后验概率，推出，正则化项，等价于，P(θ) 先验概率。

可类比与，费舍尔经验统计派是不完美的，忽视了后验概率公式中，先验概率的重大影响，贝叶斯才是最佳。

最佳模型实质是推导数据的生成机制。也就是数据的原始分布，不以人的意志为转移的真理，真实世界的公式，比如e=mc²。背后实质是逻辑和概率，概率也可进一步定义为包含不确定性的逻辑。

从数据出发推导生成方式，实质是猜测，方程形式和参数。

（题外话，任何方程都可以泰勒展开用多项式模拟，说明我们这个世界本质是多项式？）

一个模型可能有很多变量，但我们总可以用两个变量结合成一个新变量（或模型），再去跟别的变量组合，所以原子问题是，两个变量直接的关系。所以，我们限制我们的研究对象为，两个特征，那么生成机制，数据分布，对应的就是联合概率分布P(X，Y)。再把X，Y，改个名字，x，θ。这不就是说，我们所想推导的模型，实质是数据与参数的联合分布？（一种感觉，更为详细的不知道怎么解释）

所以MAP最大后验概率，以概率来倒推是最完美的。公式P(θ|x)=P(x|θ)*P(θ)/P(x)。

求解的是当前的样本分布的情况下，对参数分布的支持力度P(θ|x)，寻找的是P(θ|x)的最大值。因为x已知，带入方程式的是具体的x的值，所以得到的P(θ|x)是关于θ的函数。

《统计机器学习》中说的经验风险，也就是以样本数据倒推方程参数，实质是只完成了MAP最大后验概率的前半部分的，P(x|θ)。

但是我最后疑惑的是，为什么正则化项进到机器学习方法里就是+λ*范数，而MAP里是直接乘P(θ)。一个加一个乘。

看了很多文章还觉还是差那么些意思，头大。到底差在哪呢。

https://blog.csdn.net/u011508640/article/details/72815981

范数对于数学的意义？1范数、2范数、无穷范数该怎么用？ - 自由之畔的回答 - 知乎 https://www.zhihu.com/question/21868680/answer/389440726

最佳答案！

要学习的链接：

https://zhuanlan.zhihu.com/p/35356992

https://zhuanlan.zhihu.com/p/29360425

看了没懂，还需要再看：

机器学习中的范数规则化之（一）L0、L1与L2范数

https://blog.csdn.net/bitcarmanlee/article/details/51932055

机器学习中的范数规则化之（一）L0、L1与L2范数

https://blog.csdn.net/zouxy09/article/details/24971995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
L1L2正则化

要学习的链接：机器学习中的范数规则化之（一）L0、L1与L2范数https://blog.csdn.net/bitcarmanlee/article/details/51932055机器学习中的范数规则化之（一）L0、L1与L2范数https://blog.csdn.net/zouxy09/article/details/24971995...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。