最大似然估计和最大后验估计

最新推荐文章于 2024-01-19 10:57:05 发布

我是一个小透明

最新推荐文章于 2024-01-19 10:57:05 发布

阅读量391

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41696015/article/details/117808044

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学习机器学习了好几年，好多概念也是学了就忘，MAP和MLE之间的关系也一直没搞清楚。这段时间终于可以静下心来好好理解，趁着还没忘，赶紧写下来。
两大学派——频率学派 vs 贝叶斯学派

频率学派——最大似然估计 Maximum Likelihood Estimation (MLE)
贝叶斯学派——最大后验估计 Maximum A Posteriori (MAP)
问题定义
假设有一组独立同分布 i.i.d 的随机变量 $X\sim P(X|\theta)$ ，服从概率分布P，参数为 $\theta$ 。

频率学派

频率派认为 $\theta$ 是未知的常数， X 是随机变量。频率学派使用的参数估计方法-极大似然估计（MLE）,目的就是找到参数 $\theta$ 的一个估计值，使得当前样本出现的可能性最大。
$P(x_1,x_2,\dots,x_n|\theta)=P(x_1|\theta)\times P(x_2|\theta)\times P(x_n|\theta)$
似然函数为：
$L(\theta|x_1,x_2,\dots,x_n)=P(x_1,x_2,\dots,x_n|\theta)=\prod P(x_i|\theta)$
在实际使用中，由于 $P(x_i|\theta)$ 一般比较小，而且 n 比较大，连乘容易造成浮点运算下溢。所以一般使用对数似然函数：
$\log L(\theta|x_1,x_2,\dots,x_n)= \sum P(x_i|\theta)$
$\begin{aligned} \theta_{MLE}&=\arg\max \log P(X|\theta)\\ &=\arg\min-\log P(X|\theta) \end{aligned}$
注意，最后这一行称为负对数似然(Negative Log Likelihood, NLL)。
举个抛硬币的例子：
假设硬币正面朝上的概率 $P(Heads|\theta)=\theta$ 。每一次抛硬币都是一次 i.i.d ，一共抛了十次硬币，结果为X=(H, H, T, T, H, T, H, H, H, T)。正面朝上次数为 $n_h=6$ ，背面朝上 $n_t=4$ 。
似然函数为：
$L(\theta|X)=\theta^{n_h} \times (1-\theta)^{n_t}$
$\begin{aligned} \theta_{MLE}&= \arg\max \log P(X|\theta)\\ &=\arg\max[ n_h\log \theta + n_t\log(1-\theta)] \end{aligned}$
对 $\theta$ 求导：
$\frac{n_h}{\theta}-\frac{n_t}{1-\theta}=0\\ \Leftrightarrow \theta = \frac{n_h}{n_h+h_t}$
在上述情况下， $\theta = 0.6$ 。当数据量趋于无穷时，这种方法能给出精准的估计，但是缺乏数据时则可能产生严重的偏差。例如，十次实验中出现了十次正面，这时候 $\theta = 1$ ，这显然是不合理的。

贝叶斯学派

贝叶斯学派认为 $\theta$ 也是一个随机变量，符合一定的概率分布 $\theta\sim P(\theta)$ ，这个就是先验概率(prior)，反映的是我们没有观测到任何数据时对 $\theta$ 的预先判断。贝叶斯中另一个输入是似然(likelihood)，即 $P(X|\theta)$ ，是假设 $\theta$ 已知后我们观察到的数据应该是什么样的。输出为后验分布(posterior)，是最终的参数分布。贝叶斯公式如下：

$\overbrace{P(\theta|X)}^{后验}=\frac{\overbrace{P(X|\theta)}^{似然} \times \overbrace{P(\theta)}^{先验}}{P(X)}$
由于分母 P(X) 是一个与 $\theta$ 无关的随机变量，因此可以省略掉， $\propto$ 表示两者成正比例：
$P(\theta|X) \propto P(X|\theta) \times P(\theta)$
最大后验概率(MAP)是贝叶斯学派常用的估计方法，假设我们用beta分布作为 $\theta$ 的先验分布:
$\theta\sim Beta(h,t) \\ P(\theta) \sim \theta^{h-1}(1-\theta)^{t-1}$

Beta分布概率密度函数
Bata分布的期望为 $E\theta=\frac{h}{h+t}$
似然函数为：
$P(X|\theta)=\theta^{n_h} \times (1-\theta)^{n_t}$
所以后验概率为：
$\begin{aligned} P(\theta|X)&\sim P(\theta)P(X|\theta)\\ &\sim \theta^{h-1}(1-\theta)^{t-1}\times\theta^{n_h} (1-\theta)^{n_t}\\ &=\theta ^{h-1+n_h}(1-\theta)^{t-1+n_t} \end{aligned}$
我们发现后验概率还是一个 Beta分布，这种特性为共轭先验：
$\theta|X\sim Beta(h+n_t, t+n_t)$
还是举一个扔硬币的例子，假设我们扔了十次硬币，这次运气爆棚，十次里有九次都是正面。先验概率为 $\theta\sim Beta(100,100)$ ，期望 $E(\theta)=0.5$ 。
用最大似然来计算， $\hat\theta_{MLE}=\frac{9}{9+1}=0.9$ ，显然这是不符合我们投硬币的经验的，因此最大似然在这种情况下有很大的偏差。
而通过贝叶斯公式计算的后验分布为：
$\theta|X\sim Beta(109,101)$
期望为 $E\theta=\frac{109}{109+101}=0.52$ 。结合试验数据后，Beta分布的中心从0.5往0.52移动了，由于这次试验数据量很小，所以对后验概率影响很小。随着数据量的增加，参数分布会越来越像数据靠拢，先验的影响力会越来越小。

红色为beta(100,100)，蓝色为beta(109,101)
最后，MAP对 $\theta$ 推导如下：
$\begin{aligned} \hat\theta_{MAP}&=\arg\max P(\theta|X)\\ &=\arg\min-logP(\theta|X)\\ &=\arg\min -log\frac{P(X|\theta)P(\theta)}{P(X)}\\ &=\arg\min-logP(X|\theta)-P(\theta)+\log P(X)\\ &=\arg\min-logP(X|\theta)-P(\theta) \end{aligned}$
所以MAP和MLE在优化时的不同就在于增加了一个先验项 $-logP(\theta)$
所以他们之间的关系为： $MAP(\theta)\approx MLE(\theta)+P(\theta)$
一个不严谨的总结就是：后验分布=先验分布+实验数据

参考
如何通俗理解 beta 分布？
张小磊：极大似然估计与最大后验概率估计
夏飞：聊一聊机器学习的MLE和MAP：最大似然估计和最大后验估计

我是一个小透明

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大似然估计和最大后验估计

学习机器学习了好几年，好多概念也是学了就忘，MAP和MLE之间的关系也一直没搞清楚。这段时间终于可以静下心来好好理解，趁着还没忘，赶紧写下来。两大学派——频率学派 vs 贝叶斯学派频率学派——最大似然估计 Maximum Likelihood Estimation (MLE)贝叶斯学派——最大后验估计 Maximum A Posteriori (MAP)问题定义假设有一组独立同分布 i.i.d 的随机变量 X∼P(X∣θ)X\sim P(X|\theta)X∼P(X∣θ) ，服从概率分布P，参数为
复制链接

扫一扫