最大似然估计（MLE）和最大后验概率估计（MAP）

最新推荐文章于 2023-07-20 12:33:30 发布

leileiliang

最新推荐文章于 2023-07-20 12:33:30 发布

阅读量271

点赞数

文章标签：最大似然估计和最大后验概率

本文链接：https://blog.csdn.net/leileiliang/article/details/102962978

版权

最大似然估计（MLE）和最大后验概率估计（MAP）是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。
但别急，我们先从概率和统计的区别讲起。
一、概率和统计是一个东西吗？
概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。
概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。举个例子，我想研究怎么养猪（模型是猪），我选好了想养的品种、喂养方式、猪棚的设计等等（选择参数），我想知道我养出来的猪大概能有多肥，肉质怎么样（预测结果）。

统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉，通过观察和判断，我确定这是猪肉（这就确定了模型。在实际研究中，也是通过观察数据推测模型是／像高斯分布的、指数分布的、拉普拉斯分布的等等），然后，可以进一步研究，判定这猪的品种、这是圈养猪还是跑山猪还是网易猪，等等（推测模型参数）。
一句话总结：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

二、最大似然估计（MLE）
假设有一个造币厂生产某种硬币，现在我们拿到了一枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反面出现的概率（记为θ）各是多少？

这是一个统计问题，回想一下，解决统计问题需要什么？数据！

于是我们拿这枚硬币抛了10次，得到的数据（ $x_0$ ）是：反正正正正反正正正反。我们想求的正面概率θθ是模型参数，而抛硬币模型我们可以假设是二项分布。

那么，出现实验结果 $x_0$ （即反正正正正反正正正反）的似然函数是多少呢？
f( $x_0$ ,θ)=(1?θ)×θ×θ×θ×θ×(1?θ)×θ×θ×θ×(1?θ)= $θ^7$ $1-θ)^3$ =f(θ)
这是个只关于θ的函数。而最大似然估计，就是要最大化这个函数。我们可以画出f(θ)的图像：
在这里插入图片描述
可以看出，在θ=0.7时，似然函数取得最大值。

这样，我们已经完成了对θ的最大似然估计。即抛10次硬币，发现7次硬币正面向上，最大似然估计认为正面向上的概率是0.7。

且慢，一些人可能会说，硬币一般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信θ=0.7。
这里就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引入了最大后验概率估计。

三、最大后验概率估计
最大似然估计是求参数θ, 使似然函数P $x_0$ |θ)最大。最大后验概率估计则是想求θθ使P( $x_0$ |θ)P(θ最大。求得的θ不单单让似然函数大，θ自己出现的先验概率也得大。

MAP其实是在最大化P(θ| $x_0$ )=P( $x_0$ |θ)P(θ)，不过因为 $x_0$ 是确定的（即投出的“反正正正正反正正正反”），P( $x_0$ )是一个已知值，所以去掉了分母P( $x_0$ )（假设“投10次硬币”是一次实验，实验做了1000次，“反正正正正反正正正反”出现了n次，则P( $x_0$ )=n/1000。总之，这是一个可以由数据集得到的值）。最大化P(θ| $x_0$ )的意义很明确， $x_0$ 已经出现了，要求θ取什么值使P(θ| $x_0$ )最大。
对于投硬币的例子来看，我们认为（”先验地知道“）θ取0.5的概率很大，取其他值的概率小一些。我们用一个正态分布来具体描述我们掌握的这个先验知识，例如假设P(θ)为均值0.5，方差0.1的高斯函数，如下图：
在这里插入图片描述则P(| $x_0$ |θ)P(θ))的函数图像为：

在这里插入图片描述

注意，此时函数取最大值时，θ取值已向左偏移，不再是0.7。实际上，在θ=0.558时函数取得了最大值。即用最大后验概率估计，得到θ=0.558
最后，那要怎样才能说服一个贝叶斯派相信θ=0.7呢？你得多做点实验。
如果做了1000次实验，其中700次都是正面向上，这时似然函数为:
在这里插入图片描述

如果仍然假设P(θ)为均值0.5，方差0.1的高斯函数，P( $x_0$ |θ)P(θ)的函数图像为：

在θ=0.696处，P( $x_0$ |θ)P(θ)取得最大值。

这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把θ估计在0.7附近了。

四、最大似然估计和最大后验概率估计的区别
MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

leileiliang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大似然估计（MLE）和最大后验概率估计（MAP）

最大似然估计（MLE）和最大后验概率估计（MAP）是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。但别急，我们先从概率和统计的区别讲起。一、概率和统计是一个东西吗？概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。...
复制链接

扫一扫