MLE&MAP

Intro

学MLE时遇到这么一句话

A nice feature of this view is that we can now also interpret the
regularization term R(W) in the full loss function as coming from a
Gaussian prior over the weight matrix W, where instead of MLE we are
performing the Maximum a posteriori (MAP) estimation.

翻译过来就是:当在MLE中W是高斯先验条件时,并且加上一个正则项,我们可以看成是MAP。查了一下资料,才知道这是MLE和MAP的转换关系。

两大学派的争论

  • 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
  • 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
    频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

先验与后验、似然

比如我们研究一个神经网络,其网络参数 θ \theta θ是我们要求的,虽然网络参数是多维的,但对单个参数成立的话,对多维参数也成立。并且,我们对 θ \theta θ的估计在网络输出值 X = X 1 , X 2 , . . X n X={X_1,X_2,..X_n} X=X1,X2,..Xn的基础上进行。

  • p ( θ ) p(\theta) p(θ)就是先验概率,即对网络的预先判断。比如我们迁移学习时,就能将被迁移的网络参数当成先验。
  • p ( θ ∣ X ) p(\theta|X) p(θX)就是后验概率,即 X X X产生后对 θ \theta θ的估计
  • p ( X ∣ θ ) p(X|\theta) p(Xθ)似然函数,类似于概率密度函数。
    注意,无论先验、后验、似然,都是关于 θ \theta θ的函数

Maximum Likelihood Estimation

即最大似然估计。
θ ^ M L E = a r g m a x P ( X ∣ θ ) = − a r g m i n P ( X ∣ θ ) = − a r g m i n   l o g P ( X ∣ θ ) = − a r g m i n ∑ i l o g P ( x i ∣ θ ) \begin{aligned} \widehat{\theta}_{MLE} &=argmaxP(X|\theta)\\ &=-argminP(X|\theta)\\ &=-argmin\space logP(X|\theta)\\ &=-argmin \sum_i logP(x_i|\theta) \end{aligned} θ MLE=argmaxP(Xθ)=argminP(Xθ)=argmin logP(Xθ)=argminilogP(xiθ)

Maximum A Posteriori

即最大后验,是根据Bayesian公式推出
θ ^ M A P = a r g m a x P ( θ ∣ X ) = a r g m a x   l o g P ( θ ∣ X ) = a r g m a x   l o g ( X ∣ θ ) + l o g P ( θ ) − l o g P ( X )   B a y e s i a n f o r m u l a t i o n = − a r g m i n   l o g ( X ∣ θ ) + l o g P ( θ ) = θ ^ M L E − a r g m i n   l o g P ( θ ) = θ ^ M L E − a r g m i n   ∣ ∣ θ ∣ ∣ 2   W h e n   θ ∼ N ( μ , σ ) \begin{aligned} \widehat{\theta}_{MAP} &=argmax P(\theta|X)\\ &=argmax \space logP(\theta|X)\\ &=argmax\space log(X|\theta)+logP(\theta)-logP(X)\space Bayesian formulation\\ &=-argmin\space log(X|\theta)+logP(\theta)\\ &=\widehat{\theta}_{MLE}-argmin\space logP(\theta)\\ &=\widehat{\theta}_{MLE}-argmin\space ||\theta||_2 \space When\space \theta \sim N(\mu,\sigma)\\ \end{aligned} θ MAP=argmaxP(θX)=argmax logP(θX)=argmax log(Xθ)+logP(θ)logP(X) Bayesianformulation=argmin log(Xθ)+logP(θ)=θ MLEargmin logP(θ)=θ MLEargmin θ2 When θN(μ,σ)

总结:

  • MAP运用了先验条件,而MlE没有。
  • 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularization。
  • 当样本数量趋向无穷大时,先验的作用越来越小,MAP和MLE近似等价。

Reference

[1] https://zhuanlan.zhihu.com/p/32480810
[2] http://cs231n.github.io/linear-classify/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值