#数据分析 MLE(最大似然估计) MAP（最大后验估计）

最新推荐文章于 2022-06-19 18:34:15 发布

懿朔

最新推荐文章于 2022-06-19 18:34:15 发布

阅读量261

点赞数

分类专栏：数据分析

原文链接：https://zhuanlan.zhihu.com/p/32480810

版权

数据分析专栏收录该内容

13 篇文章 0 订阅

订阅专栏

MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派
MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派

各派观点：

频率学派认为世界确定，有一个本体其真值是不变的，我们的目标是要找到该真值或真值所在的范围
贝叶斯学派认为世界是不确定的，人们对世界有一个预判，通过观测数据对预判做调整，我们的目标是要找到最优的描述这个世界的概率分布

对事物建模时用 $\theta$ 表示模型的参数，解决问题的本质即是求解该值

- MLE
假设数据 $x_1,x_2,...,x_n$ 是独立同分布的一组抽样,那么MLE对 $\theta$ 的估计方法可以如下推导：
$\hat{\theta}_{MLE}$
=arg max $\theta)$
=arg max $P(x_1, \theta)P(x_2, \theta)...P(x_n, \theta)$
=arg max $\sum_{i=1}^{n}logP(x_i),\theta$
=arg min - $\sum_{i=1}^{n}logP(x_i),\theta$
最后一行即Negative Log Likelihood(NLL)
深度学习做分类任务时所用的 cross entropy loss 本质也是MLE

- MAP
假设数据 $x_1,x_2,...,x_n$ 是独立同分布的一组抽样,则MAP对 $\theta$ 的估计方法可以如下推导：
$\hat{\theta}_{MAP}$
=arg max $P(\theta|X)$
=arg min - $P(\theta|X)$
=arg min - $P(X|\theta)$ - $P(\theta)$ + $l o g P (X)$
=arg min - $P(X|\theta)$ - $P(\theta)$
(不考虑最后一项因为其与 $\theta$ 无关)
- $P(X|\theta)$ 即NLL,所以MLE 和 MAP优化的不同在于先验项- $P(\theta)$ 。假设先验是高斯分布即：
$P(\theta)$ =constant $\times e^{- \frac{\theta^2}{2\sigma^2}}$
则- $P(\theta)$ =constant + $e^{\frac{\theta^2}{2\sigma^2}}$
在MAP中使用高斯分布的先验等价于在MLE中采用L2正则

ref:https://zhuanlan.zhihu.com/p/32480810

懿朔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#数据分析 MLE(最大似然估计) MAP（最大后验估计）

MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派各派观点：频率学派认为世界确定，有一个本体其真值是不变的，我们的目标是要找到该真值或真值所在的范围贝叶斯学派认为世界是不确定的，人们对世界有一个预判，通过观测数据对预判做调整，我们的目标是要找到最优的描述这个世界的概率分布对事物建模时用θ\thetaθ表示模型的参数，解决问题的本质即是求解该值- MLE假设数据 x1.
复制链接

扫一扫

专栏目录