最大似然估计（MLE）、最大后验估计（MAP）、贝叶斯估计的详细介绍

仙宫大niu

已于 2022-04-20 16:22:58 修改

阅读量1.4k

点赞数 5

分类专栏：贝叶斯估计文章标签：机器学习人工智能深度学习概率论

于 2022-04-20 11:40:07 首次发布

本文链接：https://blog.csdn.net/weixin_42973814/article/details/124212953

版权

最大似然估计（MLE）、最大后验估计（MAP）、贝叶斯估计的详细介绍

文章目录

最大似然估计（MLE）、最大后验估计（MAP）、贝叶斯估计的详细介绍

@[TOC](文章目录)

前言

一、基础知识

1.1 概率与统计

1.2 边缘概率与联合概率

1.3 条件概率

1.4 全概率公式

1.5 Beta分布

二、最大似然估计MLE

2.1 例题

三、最大后验估计MAP

3.1 例题

四、贝叶斯估计

4.1 似然 $\mid \theta)$

4.2 先验分布 $P(\theta)$

4.3 后验分布 $P(\theta \mid X)$

4.4 例题

总结

本篇作者：朱毅琳

前言

最大似然估计（MLE）、最大后验估计（MAP）、贝叶斯估是在机器学习和深度学习中经常用到的概念，本篇文章中将对这三个概念逐一介绍，并给出计算示例。

一、基础知识

介绍一些不可缺少的基础知识，已掌握的同学可以跳过本节。

1.1 概率与统计

首先，我们需要区分清楚概率与统计。概率是在已知模型的基础上去预测这个模型产生的结果，例如方差、均值等；统计是在已知数据的情况下，对模型和参数的归纳总结。

1.2 边缘概率与联合概率

对于随机变量 $A$ 和 $B$ , $P (A = a, B = b)$ 用于表示 $A = a$ 且 $B = b$ 同时发生（所有条件同时成立）的概率，称为联合概率。 $P (A = a)$ 和 $P (B = b)$ 这种仅与单个随机变量有关的概率称为边缘概率。

联合概率与边缘概率的关系： $P(A=a)=\sum_{b}P(A=a, B=b)$ $P(B=b)=\sum_{a}P(A=a, B=b)$
求和符号表示穷举所有 $B$ （或 $A$ ）所能取得的 $b$ (或 $a$ ) 后，所有对应值相加之和。

1.3 条件概率

以 $P (A = a ∣ B = b)$ 为例，称为在条件 $B = b$ 下， $A = a$ 的概率。
条件概率的乘法形式：
$P (A, B) = P (B) * P (A ∣ B) = P (A) * P (B ∣ A)$

1.4 全概率公式

介绍全概率公式，首先要引入的概念是完备事件组：
事件 $A_{1}$ ， $A_{2}$ ，…， $A_{n}$ 如果两两互斥，其和为全集，则构成一个完备事件组。
当 $A_{1}$ ， $A_{2}$ ，…， $A_{n}$ 是完备事件组，且 $P(A_{i})>0$ 时，根据全概率公式，对于任意的事件 $B$ 有： $\begin{aligned}P(B) &= P(B|A_{1})P(A_{1})+P(B|A_{2})P(A_{2})+\dots+P(B|A_{n})P(A_{n}) \\ &= \sum_{i=1}^{n}P(B|A_{i})P(A_{i}) \end{aligned}$

1.5 Beta分布

Beta分布即B分布，为定义在 $(0, 1)$ 区间的连续概率分布，Beta分布概率密度： $\begin{aligned} f(x ; \alpha, \beta) &=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_{0}^{1} \mu^{\alpha-1}(1-\mu)^{\beta-1} d \mu} \\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \\ &=\frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} \end{aligned}$
其中 $\alpha，\beta>0$ , $\Gamma(\alpha)$ 、 $\Gamma(\beta)$ 是 $\Gamma$ 函数，Beta函数 $B(\alpha,\beta)=\int_{0}^{1}\theta^{\alpha-1}(1-\theta)^{\beta-1} \mathrm{d}\theta$ 。服从Beta分布的随机变量 $X$ 表示为 $X\sim Beta(\alpha, \beta)$

二、最大似然估计MLE

以抛硬币为例解释最大似然估计：
现有一枚硬币，想知道抛这枚硬币正面反面出现的概率各是多少。现在设正面向上的概率为 $\theta$ ，为了估计参数 $\theta$ ，进行了 $n$ 次实验，得到了实验数据 $X=x_{1}，x_{2},\dots,x_{n}$ ，其中 $n^{(1)}$ 次正面向上， $n^{(0)}$ 次反面向上。

最大似然估计：求使实验数据发生概率最大的参数，本例中即求使似然函数 $L(X;\theta)$ （即 $P(X|\theta)$ ）最大的参数 $\theta$ （其中 $\theta$ 是未知的固定值）。

2.1 例题

对于上述抛硬币问题，由于样本集独立同分布，所以总体似然等于每个样本似然的乘积: $\begin{aligned}L(X;\theta)&=\displaystyle\prod_{i=0}^{n}P(x_{i}|\theta)\\&=\theta^{n^{(1)}}(1-\theta)^{n^{(0)}} \end{aligned}$