L1L2正则化

总结:

为什么正则化可以降低过拟合?

最佳解释是:

从MAP最大后验概率,推出,正则化项,等价于,P(θ) 先验概率。

可类比与,费舍尔经验统计派是不完美的,忽视了后验概率公式中,先验概率的重大影响,贝叶斯才是最佳。

最佳模型实质是推导数据的生成机制。也就是数据的原始分布,不以人的意志为转移的真理,真实世界的公式,比如e=mc²。背后实质是逻辑和概率,概率也可进一步定义为包含不确定性的逻辑。

从数据出发推导生成方式,实质是猜测,方程形式和参数。

(题外话,任何方程都可以泰勒展开用多项式模拟,说明我们这个世界本质是多项式?)

一个模型可能有很多变量,但我们总可以用两个变量结合成一个新变量(或模型),再去跟别的变量组合,所以原子问题是,两个变量直接的关系。所以,我们限制我们的研究对象为,两个特征,那么生成机制,数据分布,对应的就是联合概率分布P(X,Y)。再把X,Y,改个名字,x,θ。这不就是说,我们所想推导的模型,实质是数据与参数的联合分布?(一种感觉,更为详细的不知道怎么解释)

所以MAP最大后验概率,以概率来倒推是最完美的。公式P(θ|x)=P(x|θ)*P(θ)/P(x)。

求解的是当前的样本分布的情况下,对参数分布的支持力度P(θ|x),寻找的是P(θ|x)的最大值。因为x已知,带入方程式的是具体的x的值,所以得到的P(θ|x)是关于θ的函数。

《统计机器学习》中说的经验风险,也就是以样本数据倒推方程参数,实质是只完成了MAP最大后验概率的前半部分的,P(x|θ)。

但是我最后疑惑的是,为什么正则化项进到机器学习方法里就是+λ*范数,而MAP里是直接乘P(θ)。一个加一个乘。

看了很多文章还觉还是差那么些意思,头大。到底差在哪呢。

https://blog.csdn.net/u011508640/article/details/72815981

 

 

范数对于数学的意义?1范数、2范数、无穷范数该怎么用? - 自由之畔的回答 - 知乎 https://www.zhihu.com/question/21868680/answer/389440726

最佳答案!

 

要学习的链接:

https://zhuanlan.zhihu.com/p/35356992

https://zhuanlan.zhihu.com/p/29360425

 

看了没懂,还需要再看:

 

机器学习中的范数规则化之(一)L0、L1与L2范数

https://blog.csdn.net/bitcarmanlee/article/details/51932055

 

机器学习中的范数规则化之(一)L0、L1与L2范数

https://blog.csdn.net/zouxy09/article/details/24971995

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值