机器学习：最大似然估计与最大后验概率估计

最新推荐文章于 2024-07-31 17:36:20 发布

Matrix_11

最新推荐文章于 2024-07-31 17:36:20 发布

阅读量8.4k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

113 篇文章 145 订阅

订阅专栏

在机器学习领域，概率估计是经常用到的一种模型，而概率估计中，我们经常会看到两种估计模型，一种是最大似然估计，即 Maximum likelihood，另外一种就是最大后验概率估计，即 Maximum posterior ，两种模型可以由贝叶斯定理演化而来。

在介绍这两种模型之前，我们先来看一下贝叶斯定理:

p (w | D) = p ( D | w ) p ( w ) p ( D )

$p(\mathbf{w}| D)=\frac{p(D|\mathbf{w})p(\mathbf{w})} {p(D)}$

这里， $D$ 表示观察到的数据，而 $\mathbf{w}$ 表示我们要求的变量或者参数。我们来看看贝叶斯定理中，每一项所表示的含义：
$p(D)$ 表示数据的概率分布
$p(\mathbf{w})$ 表示参数 $\mathbf{w}$ 的概率分布，一般称为先验概率分布，因为我们本意是要求 $\mathbf{w}$ 的，所以理论上来说，我们无法事先确切地知道 $\mathbf{w}$ 的概率分布，但是我们可以给出一个大概的经验估计，所以称为先验分布 prior distribution。
$p(D|\mathbf{w})$ 表示似然函数 likelihood function。
$p(\mathbf{w}| D)$ 表示后验概率分布 posterior distribution。

$p(D|\mathbf{w})$ 表示了一种 “似然率”, 对于不同的参数 $\mathbf{w}$ , 我们观测到数据 $D$ 的概率是不同的, 最大似然估计, 就是找到 $\mathbf{w}$ , 使得我们观测到数据 $D$ 的概率最大。所以最大似然估计可以表示为:

max w p (D | w)

$\max_{\mathbf{w}} p(D|\mathbf{w})$

$p(\mathbf{w}| D)$ 表示后验概率，如果给定了观测数据, 我们可以推测参数 $\mathbf{w}$ 的概率分布, 根据贝叶斯定理，我们可以看出：

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

即：

p (w | D) \propto p (D | w) \times p (w)

$p(\mathbf{w}| D) \propto p(D|\mathbf{w}) \times p(\mathbf{w})$

而贝叶斯定理中的分母 $p(D)$ 是一个归一化变量, 可以看出

p (D) = \int p (D | w) p (w) d w

$p(D)=\int p(D|\mathbf{w})p(\mathbf{w}) d\mathbf{w}$

换句话说，后验概率与似然函数和先验概率之积是成比例的。

我们可以看到，无论是最大似然估计还是最大后验概率估计，似然函数都发挥着重要作用。但这两种估计，反应了两种观点。最大似然估计是古典统计学派的观点，古典统计学派认为，参数 $\mathbf{w}$ 是固定的，可以通过观测到的数据直接求出来。而最大后验概率估计是贝叶斯学派的观点，贝叶斯学派认为，只有数据是可见的，参数 $\mathbf{w}$ 也是不固定的，而是满足一定概率分布 $p( \mathbf{w}| D)$ 的。

这两种模型，孰优孰劣，一直以来都是莫衷一是，未有定论。最大似然估计被人诟病之处是估计存在bias，在某些极端情况下，是违反经验与直觉的。最大后验概率估计可以有效地减弱这种bias，但是最大后验概率需要引入先验概率分布 $p(\mathbf{w})$ , 所以最大后验概率估计的效果，也取决于先验概率的设定，一个糟糕的先验概率将会导致一个糟糕的后验概率估计。