最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯估计的详细介绍
本篇作者:朱毅琳
前言
最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯估是在机器学习和深度学习中经常用到的概念,本篇文章中将对这三个概念逐一介绍,并给出计算示例。
一、基础知识
介绍一些不可缺少的基础知识,已掌握的同学可以跳过本节。
1.1 概率与统计
首先,我们需要区分清楚概率与统计。概率是在已知模型的基础上去预测这个模型产生的结果,例如方差、均值等;统计是在已知数据的情况下,对模型和参数的归纳总结。
1.2 边缘概率与联合概率
对于随机变量 A A A 和 B B B, P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b)用于表示 A = a A=a A=a 且 B = b B=b B=b 同时发生(所有条件同时成立)的概率,称为联合概率。 P ( A = a ) P(A=a) P(A=a) 和 P ( B = b ) P(B=b) P(B=b)这种仅与单个随机变量有关的概率称为边缘概率。
联合概率与边缘概率的关系: P ( A = a ) = ∑ b P ( A = a , B = b ) P(A=a)=\sum_{b}P(A=a, B=b) P(A=a)=b∑P(A=a,B=b) P ( B = b ) = ∑ a P ( A = a , B = b ) P(B=b)=\sum_{a}P(A=a, B=b) P(B=b)=a∑P(A=a,B=b)
求和符号表示穷举所有 B B B(或 A A A)所能取得的 b b b(或 a a a) 后,所有对应值相加之和。
1.3 条件概率
以 P ( A = a ∣ B = b ) P(A=a| B=b) P(A=a∣B=b)为例,称为在条件 B = b B=b B=b下, A = a A=a A=a的概率。
条件概率的乘法形式:
P ( A , B ) = P ( B ) ∗ P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P(A,B)=P(B)*P(A| B)=P(A)*P(B| A) P(A,B)=P(B)∗P(A∣B)=P(A)∗P(B∣A)
1.4 全概率公式
介绍全概率公式,首先要引入的概念是完备事件组:
事件 A 1 A_{1} A1 , A 2 A_{2} A2,…, A n A_{n} An如果两两互斥,其和为全集,则构成一个完备事件组。
当 A 1 A_{1} A1 , A 2 A_{2} A2,…, A n A_{n} An是完备事件组,且 P ( A i ) > 0 P(A_{i})>0 P(Ai)>0时,根据全概率公式,对于任意的事件 B B B有: P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) + ⋯ + P ( B ∣ A n ) P ( A n ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) \begin{aligned}P(B) &= P(B|A_{1})P(A_{1})+P(B|A_{2})P(A_{2})+\dots+P(B|A_{n})P(A_{n}) \\ &= \sum_{i=1}^{n}P(B|A_{i})P(A_{i}) \end{aligned} P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)+⋯+P(B∣An)P(An)=i=1∑nP(B∣Ai)P(Ai)
1.5 Beta分布
Beta分布即B分布,为定义在 ( 0 , 1 ) (0,1) (0,1)区间的连续概率分布,Beta分布概率密度: f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 μ α − 1 ( 1 − μ ) β − 1 d μ = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 \begin{aligned} f(x ; \alpha, \beta) &=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_{0}^{1} \mu^{\alpha-1}(1-\mu)^{\beta-1} d \mu} \\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \\ &=\frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} \end{aligned} f(x;α,β)=∫01μα−1(1−μ)β−1dμxα−1(1−x)β−1=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1=B(α,β)1xα−1(1−x)β−1
其中 α , β > 0 \alpha,\beta>0 α,β>0 , Γ ( α ) \Gamma(\alpha) Γ(α)、 Γ ( β ) \Gamma(\beta) Γ(β)是 Γ \Gamma Γ函数,Beta函数 B ( α , β ) = ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ B(\alpha,\beta)=\int_{0}^{1}\theta^{\alpha-1}(1-\theta)^{\beta-1} \mathrm{d}\theta B(α,β)=∫01θα−1(1−θ)β−1dθ。服从Beta分布的随机变量 X X X表示为 X ∼ B e t a ( α , β ) X\sim Beta(\alpha, \beta) X∼Beta(α,β)
二、最大似然估计MLE
以抛硬币为例解释最大似然估计:
现有一枚硬币,想知道抛这枚硬币正面反面出现的概率各是多少。现在设正面向上的概率为 θ \theta θ,为了估计参数 θ \theta θ,进行了 n n n次实验,得到了实验数据 X = x 1 , x 2 , … , x n X=x_{1},x_{2},\dots,x_{n} X=x1,x2,…,xn,其中 n ( 1 ) n^{(1)} n(1)次正面向上, n ( 0 ) n^{(0)} n(0)次反面向上。
最大似然估计:求使实验数据发生概率最大的参数,本例中即求使似然函数 L ( X ; θ ) L(X;\theta) L(X;θ)(即 P ( X ∣ θ ) P(X|\theta) P(X∣θ))最大的参数 θ \theta θ(其中 θ \theta θ是未知的固定值)。
2.1 例题
对于上述抛硬币问题,由于样本集独立同分布,所以总体似然等于每个样本似然的乘积: L ( X ; θ ) = ∏ i = 0 n P ( x i ∣ θ ) = θ n ( 1 ) ( 1 − θ ) n ( 0 ) \begin{aligned}L(X;\theta)&=\displaystyle\prod_{i=