最大似然概率和后验概率的区别

最新推荐文章于 2024-07-26 10:34:47 发布

mousever

最新推荐文章于 2024-07-26 10:34:47 发布

阅读量7.5k

点赞数 2

分类专栏：机器学习 DM

DM 同时被 2 个专栏收录

107 篇文章 7 订阅

订阅专栏

机器学习

30 篇文章 2 订阅

订阅专栏

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:

$\theta _{MLE} = argmax_{\theta }p(D|\theta)$

D表示训练数据集， $\theta$ 是模型参数

相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结果，必须用一个概率的方式表达出来，所以贝叶斯学派的预测值是一个期望值，如下所示：

$E[y|x,D] = \int p(y|x,\theta)p(\theta |D)d\theta$

其中x表示输入，y表示输出，D表示训练数据集， $\theta$ 是模型参数

该公式称为全贝叶斯预测。现在的问题是如何求 $p(\theta |D)$ （后验概率），根据贝叶斯公式我们有：

$p(\theta|D) = \frac{p(D|\theta )p(\theta )}{p(D)} = \frac{p(D|\theta )p(\theta )}{\int p(D|\theta )p(\theta )d\theta }$

可惜的是，上面的后验概率通常是很难计算的，因为要对所有的参数进行积分，不能找到一个典型的闭合解（解析解）。在这种情况下，我们采用了一种近似的方法求后验概率，这就是最大后验概率。

$\theta _{MAP} = argmax_{\theta }p(D|\theta )p(\theta )$

最大后验概率和极大似然估计很像，只是多了一项先验分布，它体现了贝叶斯认为参数也是随机变量的观点，在实际运算中通常通过超参数给出先验分布。

从以上可以看出，一方面，极大似然估计和最大后验概率都是参数的点估计。在频率学派中，参数固定了，预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段，因为完全贝叶斯估计不一定可行。另一方面，最大后验概率可以看作是对先验和MLE的一种折衷，如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0,最大后验仅由先验决定。

本文假设大家都知道什么叫条件概率了（P(A|B)表示在B事件发生的情况下，A事件发生的概率）。

先验概率和后验概率
教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。

假设我们出门堵车的可能因素有两个（就是假设而已，别当真）：车辆太多和交通事故。

堵车的概率就是先验概率 。

那么如果我们出门之前我们听到新闻说今天路上出了个交通事故，那么我们想算一下堵车的概率，这个就叫做条件概率。也就是P(堵车|交通事故)。这是有因求果。

如果我们已经出了门，然后遇到了堵车，那么我们想算一下堵车时由交通事故引起的概率有多大，

那这个就叫做后验概率（也是条件概率，但是通常习惯这么说）。也就是P(交通事故|堵车)。这是有果求因。

下面的定义摘自百度百科：

先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.

后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".

那么这两个概念有什么用呢？

最大似然估计
我们来看一个例子。