参数估计的方法,MLE,MAP,Bayesian estimator

转载 2013年08月29日 20:43:25

Density estimation是learning中常见的一个task,即估计该分布的参数θ。在有限的样本下,如何判定哪个估计最优,概率论中有两种常用的principle:MLE(Maximum likelihood estimation),MAP(Maximum a posteriori estimation)。由于估计的是一个确定的参数值,MLE和MAP称为点估计。事实上,由于样本有限,这两种principle都不能保证估计的参数一定准。更进一步讲,不完全准确的是不存在的。所以,更合理的方法是认为估计也是不确定的,也是一个分布。考虑θ的分布,而不是一个确切值的目标函数估计通常称为Bayes estimators或Bayes inference.

1. MLE estimator

MLE选择给定当前数据下最匹配的参数,目标是:

[ hat{theta}_{ML} = mathop{argmax_theta} L(theta|D) = mathop{argmax}_theta P(D|theta)]

例子:掷图钉实验,假尖朝上的概率。

设随机变量x=0表示帽朝上, x=1表示尖朝上,现在进行了N次试验x1, ..., xN。我们知道x~Bernouli(μ),且P(x=0)=μ,P(x=1)=1-μ。用一个统一的式子表示:

[P(x) = mu ^x (1-mu )^{(1-x)} ]

假设这N次试验是独立同分布的,整个log likelihood可以写成:

[l(theta ;X) = sum_{i=1}^N{x_ilogmu + (1-mu)^{(1-x_i)}} = n_1log mu + (N-n_1) log(1-mu) ]

其中,n0,n1分别表示xi=0,1的试验次数。令上式导数等于0,可解得:

[frac{partial l} {partial mu} = frac{n_1}{mu} - frac{N-n_1}{1-mu} = 0 Rightarrow hat{mu}_{MLE} = frac{n_1}{N} ]

如果样本真的符合独立同分布假设,根据Chernoff bound,有几十个样本就可以得到参数比较好的估计。如果样本过少,则variance非常大,不可靠。另外,真实应用场景下,试验数据通常都不是iid的,可能受很多潜在因素的影响。于是需要引入潜在变量,来建立条件独立性或者其他更高级的手段。

2. MAP estimator

一种克服数据不充分下得到错误估计的方法,就是引入人对θ的经验认识。比如,实验者以前掷过图钉,在进行掷图钉实验之前,会对尖朝上的概率有一个大致的认识(如果他能肯定该概率是多少,那就不用实验了)事实上,不同的图钉和不同的环境下,该概率并不一定一样,所以是没法肯定的。因此,先验只是表明了θ的取值的大致猜测,它通常是关于θ的一个连续型的分布。

MAP最大化后验分布要求MLE与prior乘积最优, 取log likelihood:

[hat{theta}_{MAP} = argmax_theta{ L(theta;X) + log P(theta)} ]

(注意:uniform的先验等于没加先验(non-informative prior),此时MAP estimator=MLE estimator.)

假设θ~Beta(α, β), 即 P(theta)=fracGamma(alpha+beta)Gamma(alpha)Gamma(beta)thetaalpha1(1theta)(beta1) ,此时θ的后验分布:

[P(theta|X) = frac{P(X|theta)P(theta)}{P(X)} = frac{1}{P(X)}frac{Gamma(alpha + beta)}{Gamma(alpha) Gamma(beta)} theta^{n_1 + alpha - 1} (1-theta)^{n_0 + beta -1} = frac{Gamma(N + alpha + beta)}{Gamma(n_1 + alpha) Gamma(n_0 + beta)}theta^{n_1 + alpha -1} (1 - theta)^{n_0 + beta -1} ]

这里应用到了 intxa(1x)bdx=fracGamma(a+b+2)Gamma(a)Gamma(b) .

可以看出,θ|X~Beta(n1+α, n0+β). 对P(θ|X)求导,容易得出:

[hat{theta}_{MAP} = frac{n_1 + alpha - 1}{N + alpha + beta - 2}]

可以看出,MAP估计相当于视共轭先验Beta(α,β)为α+β-2次虚拟实验,其中,有α-1次head,β-1次tail。MAP可以利用先验知识纠正MLE在少量样本下的估计偏差,当然条件是先验知识够准。

备注:这里之所以采用Beta分布来建模P(θ),是因为它是Bernouli分布的conjugate prior。Conjugate prior的好处是后验分布仍保留先验的形式,即同类型分布,相当于引入了额外的样本,术语pseudo-observations 。虽然这样做只是人们的一厢情愿,但能大大简化计算,所以被广泛采用。

几组不同参数的Beta分布如下:

3. Bayes estimator

上面说到,采用共轭先验得到的θ的后验分布仍是和先验分布同种类型的分布。比如上面的例子中θ|X仍是Beta分布。在MAP中,只取了P(θ|X)的峰值作为θ的估计,忽略了θ的其他可能性,可能丢失信息。

Bayes estimator则把θ的所有可能取值考虑进来,然后算posterior分布上算期望。再用掷图钉的例子,在算出P(θ|X)后,根据Beta分布的性质,可得θ的后验期望是:

[E_{theta|X}(theta) = frac{n_1 + alpha}{N+alpha + beta}]

可以看出,MAP估计相当于视共轭先验Beta(α,β)为α+β次虚拟实验,其中,有α次head,β次tail。算Bayes estimator要比MAP更可靠些。但随着数据越多,Bayes estimator,MAP和MLE越趋于一致。Bayes estimator更常见于估计θ后验分布上的某个目标函数值Eθ|X(f),也称为Bayes inference. 比如EM中,θ是latent variables,f是complete likelihood。

Bayes estimator的一个弱点就是需要对θ在P(θ|X)上积分,通常计算比较困难。采用conjugate先验,可直接得到后验分布,避免积分。实在intractable的话,可以用MAP来近似估计。

reference:

Heinrich, G. (2009). Parameter estimation for text analysis. Technical report.

MLE,EM,MAP 三种算法对比和理解

reference link: http://blog.csdn.net/upon_the_yun/article/details/8915283 最大似然估计(MLP):   (1) 写出似然...
  • zjm750617105
  • zjm750617105
  • 2016年09月29日 01:51
  • 2566

mAP计算

SSD计算mAP值 https://github.com/weiliu89/caffe 3种计算方法: 参考文献: https://sanchom.wordpress.com/tag/ave...
  • jay463261929
  • jay463261929
  • 2017年12月06日 19:48
  • 317

最大后验概率MAP简单介绍

原文转载自https://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html。  最大后验估计是根据经验数据获得对难以观察的量的点估计。与...
  • xuyiqing1996
  • xuyiqing1996
  • 2018年01月22日 15:26
  • 16

LS、ML与MAP 例题

  • chenjianbo88
  • chenjianbo88
  • 2016年04月01日 11:49
  • 557

极大似然估计,最大后验概率估计(MAP),贝叶斯估计

最大似然估计学习总结------MadTurtle 1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。 2. 离散型...
  • HUSTLX
  • HUSTLX
  • 2016年04月13日 16:41
  • 5114

参数估计:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)

介绍几个常见的参数估计方法:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)。...
  • lin360580306
  • lin360580306
  • 2016年05月01日 14:49
  • 4758

三种参数估计方法(MLE,MAP,贝叶斯估计)

三种参数估计方法(MLE,MAP,贝叶斯估计)
  • Leo_Xu06
  • Leo_Xu06
  • 2016年04月22日 18:02
  • 1333

统计学(四):几种常见的参数估计方法

参数估计有点估计(point estimation)和区间估计(interval estimation)两种。 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的...
  • ch1209498273
  • ch1209498273
  • 2017年10月22日 22:10
  • 214

参数估计方法

极大似然估计(Maximum likelihood estimation,ML) 最大后验概率(Maximum A Posteriori Probability Estimation,MAP)估计 贝...
  • foolsnowman
  • foolsnowman
  • 2016年07月21日 16:24
  • 467

机器学习中的参数估计方法

前几天上的机器学习课上,老师讲到了参数估计的三种方法:ML,MAP和Bayesian  estimation。课后,又查了一些相关资料,以及老师推荐的LDA方面的论文《Parameter estima...
  • yt71656
  • yt71656
  • 2015年01月10日 19:46
  • 3317
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:参数估计的方法,MLE,MAP,Bayesian estimator
举报原因:
原因补充:

(最多只允许输入30个字)