MLE&MAP

Intro

学MLE时遇到这么一句话

A nice feature of this view is that we can now also interpret the
regularization term R(W) in the full loss function as coming from a
Gaussian prior over the weight matrix W, where instead of MLE we are
performing the Maximum a posteriori (MAP) estimation.

翻译过来就是:当在MLE中W是高斯先验条件时,并且加上一个正则项,我们可以看成是MAP。查了一下资料,才知道这是MLE和MAP的转换关系。

两大学派的争论

  • 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
  • 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
    频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

先验与后验、似然

比如我们研究一个神经网络,其网络参数 θ \theta θ是我们要求的,虽然网络参数是多维的,但对单个参数成立的话,对多维参数也成立。并且,我们对 θ \theta θ的估计在网络输出值 X = X 1 , X 2 , . . X n X={X_1,X_2,..X_n} X=X1,X2,..Xn的基础上进行。

  • p ( θ ) p(\theta) p(θ)就是先验概率,即对网络的预先判断。比如我们迁移学习时,就能将被迁移的网络参数当成先验。
  • p ( θ ∣ X ) p(\theta|X) p(θX)就是后验概率,即 X X X产生后对 θ \theta θ的估计
  • p ( X ∣ θ ) p(X|\theta) p(Xθ)似然函数,类似于概率密度函数。
    注意,无论先验、后验、似然,都是关于 θ \theta θ的函数

Maximum Likelihood Estimation

即最大似然估计。
θ ^ M L E = a r g m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值