极大似然估计，最大后验概率估计(MAP)，贝叶斯估计

最新推荐文章于 2020-12-12 14:51:05 发布

vivi

最新推荐文章于 2020-12-12 14:51:05 发布

阅读量4.1w

点赞数 16

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/vividonly/article/details/50722042

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、贝叶斯公式

三种参数估计方法都和贝叶斯公式有关，因此首先从分析贝叶斯公式入手：

$p(\theta |X)=\frac{p(X|\theta )p(\theta )}{p(X)}$

贝叶斯公式可以表达为：

$posterior=\frac{likehood*prior}{evidence}$

posterior：通过样本X得到参数 $\theta$ 的概率

likehood：通过参数 $\theta$ 得到样本X的概率

prior：参数 $\theta$ 的先验概率，一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合先验分布：beta分布。当我们选择beta分布的参数 $\alpha=\beta=0.5$ 时，代表人们认为抛硬币得到正反面的概率都是0.5

evidence： $p(X)=\int p(X|\theta )p(\theta )d\theta$ ，样本X发生的概率，是各种 $\theta$ 条件下发生的概率的积分

2、极大似然估计

目标是寻求能最大化likehood:的值。可以写出目标函数： $p(X|\theta )=\prod_{x1}^{xn}p(xi|\theta )$

一般使用对数来进行简化处理： $p(X|\theta )=\prod_{x1}^{xn}p(xi|\theta )=\sum_{x1}^{xn}logp(xi|\theta )$

要最大化L，对L求导数并令导数为0即可求解。

3、最大后验估计（MAP）

和极大似然估计不同的是，MAP寻求的是能使后验概率 $p(\theta |X)$ 最大的 $\theta$ 值。

$argmax p(\theta |X) =argmax \frac{p(X|\theta )p(\theta )}{p(X)} =argmax p(X|\theta )p(\theta ) =argmax (\prod_{x1}^{xn}p(xi|\theta ))p(\theta )$

之所以可以省略分母p(X)，是因为p(X)和 $\theta$ 没有关系。

加上对数处理后，上面公式可以表达为：

$argmax (\sum_{x1}^{xn}logp(xi|\theta )+logp(\theta ))$

$\theta$ 的先验分布 $p(\theta)$ ，我们可以按照实际情况来选择，比如抛硬币实验，我们就可以选择上面

说过的beta分布。

至于上面目标函数的求解，也和极大似然估计是一样的，对目标函数求导并令导数为0来求解。

MAP和极大似然的区别：

MAP允许我们把先验知识加入到估计模型中，这在样本很少的时候是很有用的，因为样本很少的时候我们的观测结果很可能出现偏差，此时先验知识会把估计的结果“拉”向先验，实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数，比如beta分布的 $\alpha ,\beta$ ，我们还可以调节把估计的结果“拉”向先验的幅度， $\alpha ,\beta$ 越大，这个顶峰越尖锐。这样的参数，我们叫做预估模型的“超参数”。

4、贝叶斯估计

贝叶斯估计和MAP挺像的，都是以最大化后验概率为目的。区别在于：

1）极大似然估计和MAP都是只返回了的预估值，就完事了

2）MAP在计算后验概率的时候，把分母p(X)给忽略了，在进行贝叶斯估计的时候则不能忽略

3）贝叶斯估计要计算整个后验概率的概率分布

还是回到这两个公式：

$p(\theta |X)=\frac{p(X|\theta )p(\theta )}{p(X)}$

$p(X)=\int p(X|\theta )p(\theta )d\theta$

这里有一个技巧，对于一个特定的likehood，如果我们选择了一个先验概率分布，

通过上面两个公式的计算，得出的后验概率和先验概率是同分布的，这时候我们说这个先验分布是共轭先验。

可以举几个例子：

likehood为高斯分布，prior为高斯分布，则posterior也为高斯分布

likehood为伯努利分布（二项式分布），prior为beta分布，则posterior也为beta分布

likehood为多项式分布，prior为Dirichlet分布（beta分布的一个扩展），则posterior也为Dirichlet分布

根据上面的描述，在实践中我们往往会选择共轭先验来简化。在把后验概率推导为和先验概率一样的分布形式的时候，分母p(X)其实可以看做一个常数，往往充当了一个normalize，归一化的作用。

求解的时候，既然我们根据先验分布知道了后验是什么分布，那我们求出后验分布的期望值，即是需要估计的参数 $\theta$ 的值：

$p=E\left \{ \theta |X \right \}$

知道了后验是什么分布，那么求这个分布的期望值应该不是什么难事。

贝叶斯估计相对于最大后验估计的好处还在于，贝叶斯估计计算了整个后验概率的分布，从而也能求出其他一些比如分布的方差之类的值来供参考，比如计算出来方差太大的，我们可以认为分布不够好，从而把这个当做选择超参数的一个考虑因素。实际上，贝叶斯估计会比MAP把估计的结果往先验结果“拉”的程度还提高了一些，从而使估计结果更靠近先验结果。

5、和经验风险最小化和结构风险最小化的联系

来自《统计学习方法》

这里先解释一下经验风险最小化和结构风险最小化

经验风险最小化：

$min\frac{1}{N}\sum_{1}^{N}L(yi,f(xi))$