最大后验估计_极大似然估计 V.S. 贝叶斯估计-CSDN博客

本文链接：https://blog.csdn.net/weixin_39568083/article/details/111617481

极大似然估计(Maximum Likelihood Estimator) 和最大后验估计(Maximum a posteriori Estimator)是机器学习概率模型中常用到的两种参数估计方法。两者分别来自频率学派和贝叶斯学派。

两者差别在哪？

MLE在规模大数据集上表现好，但在规模小的数据集上容易过拟合。
MAP在规模小的数据集上表现好，但依赖于先验分布的选取。
MLE在批量学习上可以应用，在线学习不可；MAP均可。

关于频率学派和贝叶斯学派的观点下面两篇回答讲的挺不错的：

贝叶斯学派与频率学派有何不同？ - 任坤的回答 - 知乎 https://www.zhihu.com/question/20587681/answer/17435552
极大似然估计与最大后验概率估计 - 张小磊的文章 - 知乎 https://zhuanlan.zhihu.com/p/40024110

1.背景介绍

1.1 频率学派参数估计

频率学派认为“不确定性”来自于事件本身，他们直接对事件进行建模，即事件A在大量独立重复实验中发生的频率趋于事件A发生的概率，正是基于此，该种估计方法在大规模数据下有很好的效果。

频率学派并不关心参数空间的具体构造，他们认为数据都是在参数空间中某个“具体”的值下产生的，尽管我们并不知道这个值是什么。因此频率学家的目的是--在参数空间中圈出那个最有可能的参数，也就有了极大似然估计(MLE)。

1.2 贝叶斯学派参数估计

贝叶斯学派认为“不确定性”来源于观测者的知识状态不确定，假设观测者已经对事件有自己的先验知识(prior knowledge)，通过实验观测到的‘证据’来推测符合逻辑的结果，即为后验知识(posterior knowledge)。

贝叶斯学派希望能摸清参数空间的分布，将参数看作随机变量，利用给出参数先验分布和似然函数来建模后验分布，进而进行参数估计，也就有了最大后验概率估计(MAP)。

2. 详解MLE和MAP

问题1: 抛图钉

抛了10次图钉，其中6次针尖朝上，4次针尖朝下。问下一次针尖朝上的概率。

问题2: 抛硬币

抛10次硬币，其中9次正面，1次反面。问下一次正面的概率。

2.1 Maximum Likelihood Estimation

我们来看问题1，假设针尖朝上的概率为

，抛一次图钉的结果为随机变量记为

,针尖朝上

，针尖朝下

，那么

服从参数为

的伯努利分布：

极大似然估计的思想: 在给定的参数

里选择一个与所给的观测数据

最契合的参数

。

例如对于抛图钉问题，如果我们选择

(理论上是可以的)会发现那就不会出现针尖朝上的情况，但是这与我们的观测不相符；如果我们选择

，即抛10次图钉会出现6次针尖朝上的情况，这与观测是符合的。因此MLE就是想找到一个参数，使得我们观测到的情况最有可能成立。

(1)似然函数的给出：上面说的参数

和观测数据

的契合度，我们使用条件概率来表示，其中

是一个变量。

（假设观测数据独立同分布）

(2)接下来便是计算使得似然函数最大的

那么我们接下来可以在抛图钉问题上采用极大似然估计计算一下针尖朝上的概率。

step1: 给出似然函数

step2: 计算

最大时

的取值

大家会发现我们计算出来的这个概率值刚好为频率。当然可以把问题一般化，N次抛图钉，针尖朝上

次，针尖朝下

次。利用MLE估计下一次针尖朝上的概率为

，证明过程和上面一样。

2.2 Maximum A Posteriori Estimator

问题1: 抛图钉

抛了10次图钉，其中6次针尖朝上，4次针尖朝下。问下一次针尖朝上的概率。

问题2: 抛硬币

抛10次硬币，其中9次正面，1次反面。问下一次正面的概率。

「现在我们来综合看一下问题1和问题2，两者都是一个二分类的问题，如果采用MLE对抛硬币的问题进行参数估计，最后的结果为

，显然这是不正确的。因为在现实生活中，当硬币均匀的时候，我们知道正反面出现的概率各为

。这个时候采用MLE便会出现较大偏差。当然究其原因便是观测数据量太少的缘故。」

极大似然估计是无法区分上述两个问题的，因为它视待估参数是一个

贝叶斯估计思想：给出参数

的先验分布

来减小样本量过小对结果产生的影响，再利用似然函数得到给定观测数据

下参数

的后验分布

。

（1）似然函数同问题1给出：

（2）假设参数

的先验分布为Beta分布：

关于

的先验知识相当于已经抛了

次硬币，其中

次正面，

次反面。

（3）计算后验分布

后验分布仍为Beta分布。

（4）估计参数

贝叶斯估计参数常用的有两种，一种为完全贝叶斯估计，一种为最大后验概率估计。后者更为常用。

分析：

当样本量较少的时候，先验知识

在起作用，帮助我们减少样本量少带来的偏差。当样本量增大时，

的作用减小，数据占指导作用。

「」