最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯估计的详细介绍

最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯估计的详细介绍


本篇作者:朱毅琳

前言

最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯估是在机器学习和深度学习中经常用到的概念,本篇文章中将对这三个概念逐一介绍,并给出计算示例。


一、基础知识

介绍一些不可缺少的基础知识,已掌握的同学可以跳过本节。

1.1 概率与统计

首先,我们需要区分清楚概率与统计。概率是在已知模型的基础上去预测这个模型产生的结果,例如方差、均值等;统计是在已知数据的情况下,对模型和参数的归纳总结。

1.2 边缘概率与联合概率

对于随机变量 A A A B B B, P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b)用于表示 A = a A=a A=a B = b B=b B=b 同时发生(所有条件同时成立)的概率,称为联合概率 P ( A = a ) P(A=a) P(A=a) P ( B = b ) P(B=b) P(B=b)这种仅与单个随机变量有关的概率称为边缘概率

联合概率与边缘概率的关系: P ( A = a ) = ∑ b P ( A = a , B = b ) P(A=a)=\sum_{b}P(A=a, B=b) P(A=a)=bP(A=a,B=b) P ( B = b ) = ∑ a P ( A = a , B = b ) P(B=b)=\sum_{a}P(A=a, B=b) P(B=b)=aP(A=a,B=b)
求和符号表示穷举所有 B B B(或 A A A)所能取得的 b b b(或 a a a) 后,所有对应值相加之和。

1.3 条件概率

P ( A = a ∣ B = b ) P(A=a| B=b) P(A=aB=b)为例,称为在条件 B = b B=b B=b下, A = a A=a A=a的概率。
条件概率的乘法形式:
P ( A , B ) = P ( B ) ∗ P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P(A,B)=P(B)*P(A| B)=P(A)*P(B| A) P(A,B)=P(B)P(AB)=P(A)P(BA)

1.4 全概率公式

介绍全概率公式,首先要引入的概念是完备事件组:
事件 A 1 A_{1} A1 A 2 A_{2} A2,…, A n A_{n} An如果两两互斥,其和为全集,则构成一个完备事件组
A 1 A_{1} A1 A 2 A_{2} A2,…, A n A_{n} An是完备事件组,且 P ( A i ) > 0 P(A_{i})>0 P(Ai)>0时,根据全概率公式,对于任意的事件 B B B有: P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) + ⋯ + P ( B ∣ A n ) P ( A n ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) \begin{aligned}P(B) &= P(B|A_{1})P(A_{1})+P(B|A_{2})P(A_{2})+\dots+P(B|A_{n})P(A_{n}) \\ &= \sum_{i=1}^{n}P(B|A_{i})P(A_{i}) \end{aligned} P(B)=P(BA1)P(A1)+P(BA2)P(A2)++P(BAn)P(An)=i=1nP(BAi)P(Ai)

1.5 Beta分布

Beta分布即B分布,为定义在 ( 0 , 1 ) (0,1) (0,1)区间的连续概率分布,Beta分布概率密度: f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 μ α − 1 ( 1 − μ ) β − 1 d μ = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 \begin{aligned} f(x ; \alpha, \beta) &=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_{0}^{1} \mu^{\alpha-1}(1-\mu)^{\beta-1} d \mu} \\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \\ &=\frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} \end{aligned} f(x;α,β)=01μα1(1μ)β1dμxα1(1x)β1=Γ(α)Γ(β)Γ(α+β)xα1(1x)β1=B(α,β)1xα1(1x)β1
其中 α , β > 0 \alpha,\beta>0 αβ>0 , Γ ( α ) \Gamma(\alpha) Γ(α) Γ ( β ) \Gamma(\beta) Γ(β) Γ \Gamma Γ函数,Beta函数 B ( α , β ) = ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ B(\alpha,\beta)=\int_{0}^{1}\theta^{\alpha-1}(1-\theta)^{\beta-1} \mathrm{d}\theta B(α,β)=01θα1(1θ)β1dθ。服从Beta分布的随机变量 X X X表示为 X ∼ B e t a ( α , β ) X\sim Beta(\alpha, \beta) XBeta(α,β)


二、最大似然估计MLE

以抛硬币为例解释最大似然估计:
现有一枚硬币,想知道抛这枚硬币正面反面出现的概率各是多少。现在设正面向上的概率为 θ \theta θ,为了估计参数 θ \theta θ,进行了 n n n次实验,得到了实验数据 X = x 1 , x 2 , … , x n X=x_{1},x_{2},\dots,x_{n} X=x1x2,,xn,其中 n ( 1 ) n^{(1)} n(1)次正面向上, n ( 0 ) n^{(0)} n(0)次反面向上。

最大似然估计:求使实验数据发生概率最大的参数,本例中即求使似然函数 L ( X ; θ ) L(X;\theta) L(X;θ)(即 P ( X ∣ θ ) P(X|\theta) P(Xθ))最大的参数 θ \theta θ(其中 θ \theta θ是未知的固定值)。

2.1 例题

对于上述抛硬币问题,由于样本集独立同分布,所以总体似然等于每个样本似然的乘积: L ( X ; θ ) = ∏ i = 0 n P ( x i ∣ θ ) = θ n ( 1 ) ( 1 − θ ) n ( 0 ) \begin{aligned}L(X;\theta)&=\displaystyle\prod_{i=

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仙宫大niu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值