转自:http://www.xperseverance.net/blogs/2012/11/1396/
距离上次好好看这些概念大概半年过去了,很不幸,真的把他们忘记了。果真是不用则费,即使是简单的概念。
这次要写下来,以后再忘记则看看就容易回忆起来,事实上我现在觉得不太可能再忘记了……
参考资料:
《统计学完全教程》、《PR&ML》、《Parameter estimation for text analysis》
1. 极大似然估计(Maximum likelihood estimation)
极大后验估计中加入了一些先验知识,它最大化的是一个后验函数。具体来说,因为贝叶斯定律:
p(θ|x)=p(x|θ)p(θ)p(x)
那么极大后验估计就是要求:
θ̂ MAP=argmaxθ p(x|θ)p(θ)=argmaxθ{∑Xilog p(Xi|θ)+log p(θ)}
可见,极大后验估计中相对于最大似然估计,多了 log p(θ)
,也就是先验的影响。这一点在Beta分布的后验估计上就能看出来,由于这部分已经写在了这里,所以就不再赘述。
3. 贝叶斯推断(Bayesian Inference)
前面的MAP是一个点估计,只估计似然函数达到最大点的情况下,参数 θ
的值。Bayesian inference extends the MAP approach by allowing a distribution over the parameter set θinstead of making a direct estimate. Not only encodes this the maximum(a posteriori) value of the data-generated parameters, but it also incorporates expectation as another parameter estimate as well as variance information as a measure of estimation quality or confidence. ——《Parameter estimation for text analysis》
具体来说,给定数据X和需要求的参数 θ
,贝叶斯推断需要求出一个具体的分布:
p(θ|X)=P(X|θ)P(θ)/P(X)
这里和MAP的区别就在于,MAP忽略了P(X)因为它是常量,对于MAP的过程:求导后再求等于0来获得最好的 θ
,这个常量是没有用的。但是贝叶斯推断要的是整个 p(θ|X) 的分布,所以P(X)这个normalisation term是需要被求出来的。在获得具体的分布之后,所要求的参数值可以通过估计期望或方差得到。