对极大似然估计和极大验后估计的理解

Part.I 概念理解

概率与统计:概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果;统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

p ( a / b ) p(a/b) p(a/b):此函数有两个意思
①如果 b b b 是已知确定的, a a a 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 a a a,其出现的概率。
②如果 a a a 是已知确定的, b b b 是变量,这个函数叫做似然函数(likelihood function),它描述对于不同的模型参数,其出现的概率是多少。

对极大似然估计和极大验后估计的区分

①极大似然估计的目标为:求使得 P ( x 0 / θ ) = m a x P(x_0/\theta)=max P(x0/θ)=max θ \theta θ 的值
②极大验后估计的目标为:求使得 P ( θ / x 0 ) = m a x P(\theta/x_0)=max P(θ/x0)=max θ \theta θ 的值

两个函数都是: x 0 x_0 x0 是已经发生的,在 x 0 x_0 x0 已经发生的情况下,求 θ \theta θ,但两者的意思有点微妙的区别:

  • 极大似然估计意思就是,在 x = x 0 x=x_0 x=x0 的情况下,求一个 θ 0 \theta_0 θ0,它使得当 θ = θ 0 \theta=\theta_0 θ=θ0 时, x = x 0 x=x_0 x=x0 所发生的概率最大。
  • 极大验后估计的意思是,在 x = x 0 x=x_0 x=x0 的情况下,求一个 θ 0 \theta_0 θ0,它使得当 x = x 0 x=x_0 x=x0 时, θ = θ 0 \theta=\theta_0 θ=θ0 发生的概率最大。

利用贝叶斯法则有:
P ( θ / x 0 ) = P ( x 0 / θ ) P ( θ ) P ( x 0 ) ∝ P ( x 0 / θ ) P ( θ ) P(\theta/x_0)=\frac{P(x_0/\theta)P(\theta)}{P(x_0)}\propto P(x_0/\theta)P(\theta) P(θ/x0)=P(x0)P(x0/θ)P(θ)P(x0/θ)P(θ)

等式左侧 P ( θ / x 0 ) P(\theta/x_0) P(θ/x0) 称为后验概率,右侧的 P ( x 0 / θ ) P(x_0/\theta) P(x0/θ) 称为似然,另一部分 P ( θ ) P(\theta) P(θ) 称为先验。由于我们知道观测数据,所以我们可以把极大似然估计理解为:在什么样的状态下,最可能产生现在观测到的数据。可以把极大验后估计理解为:已知状态量的先验分布,在观测数据是这样的情况下,状态量最有可能的取值是什么

什么样的状态下,已知的模糊状态最可能产生现在观测到的数据。(回首看,有点迷了 2024-01-31)

极大验后估计考虑了参数的先验信息,是对极大似然估计的修正。为什么这么说呢,来看一个例子。

Part.II 例子

假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我想知道罐中白球和黑球的比例,但我不能把罐中的球全部拿出来数。现在我可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是 P ( x 0 / θ ) P(x^0/\theta) P(x0/θ)

如果第一次抽样的结果记为 x 1 x_1 x1,第二次抽样的结果记为 x 2 x_2 x2…那么样本结果为 x 0 = ( x 1 , x 2 . . . . . , x 100 ) x^0=(x_1,x_2.....,x_{100}) x0=(x1,x2.....,x100)。这样,我们可以得到如下表达式:

P ( x 0 / θ ) = p ( x 1 / θ ) ⋅ p ( x 2 / θ ) ⋅ . . . ⋅ p ( x 100 / θ ) = p 70 ⋅ ( 1 − p ) 30 P(x^0/\theta)=p(x_1/\theta)·p(x_2/\theta)·...·p(x_{100}/\theta)=p^{70}·(1-p)^{30} P(x0/θ)=p(x1/θ)p(x2/θ)...p(x100/θ)=p70(1p)30

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的 p p p

那么我们怎么来求这个 p 呢?

p的取值不同,导致概率 P ( x 0 / θ ) P(x^0/\theta) P(x0/θ) 的大小也不一样,那么既然事情 x 0 x^0 x0 已经发生了,为什么不让这个事情 x 0 x^0 x0出现的概率 P ( x 0 / θ ) P(x^0/\theta) P(x0/θ)最大呢?这也就是最大似然估计的核心。


好的,现在小红跑过来了,她看到了我目前所遇到的问题,因为她之前打开过罐子看过。她说她看到罐子里面大概60%是白球,40%是黑球。那么问题来了,她所说的和我做实验做出的结果不太相符,我该如何做出判决呢?该如何利用小红给我提供的信息呢?这就要用到极大验后估计了。

小红只是打开过罐子大概看了一下,并没有仔细数,所以她提供给我的信息有可能是有误差的,所以我可以根据小红给我的信息假设p服从均值为0.6,方差为0.1的正态分布。为什么是正态分布呢?为了方便。均值肯定是0.6了,但为什么假设方差是0.1呢?这就取决于我对小红的信任程度了,方差越小说明我对小红越信任(因为图像约集中,为了方便表述,下面用 θ \theta θ 表示 p),那么 p ( θ ) = 1 0.1 2 π   exp ⁡ ( − ( θ − 0.6 ) 2 0.02 ) p(\theta)=\frac{1}{0.1\sqrt{2\pi}} \, \exp \left( -\frac{(\theta- 0.6)^2}{0.02} \right) p(θ)=0.12π 1exp(0.02(θ0.6)2)

matlab绘图:

x=0:0.01:1;
y=1/(0.1*(2*pi)^0.5).*exp(-(x-0.6).^2./0.02);
plot(x,y);

它的图像大概长这个样子:

那么极大验后估计的目标就是求 θ = θ 0 \theta=\theta_0 θ=θ0,使得

取最大值。上式用 matlab 画图

x=0:0.01:1;
y=1/(0.1*(2*pi)^0.5).*exp(-(x-0.6).^2./0.02).*x.^70.*(1-x).^30;
plot(x,y);

图像为:



上面的值并不是我直接解出来的,是通过matlab算出来的:

x=0:0.001:1;
y=1/(0.1*(2*pi)^0.5).*exp(-(x-0.6).^2./0.02).*x.^70.*(1-x).^30;
plot(x,y);
ind=find(y==max(y));
x(ind)

Part.III 总结

①极大似然估计的目标为:求使得 P ( x 0 / θ ) = m a x P(x_0/\theta)=max P(x0/θ)=max θ \theta θ 的值
②极大验后估计的目标为:求使得 P ( θ / x 0 ) = m a x P(\theta/x_0)=max P(θ/x0)=max θ \theta θ 的值


可以看到,极大验后估计中,若不知道参数的先验信息,那么“极大验后估计”就不在是极大验后估计,而是退化成了极大似然估计!

Reference

  1. 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
  2. 一文搞懂极大似然估计
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流浪猪头拯救地球

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值