【机器学习概率统计】11 贝叶斯统计推断:最大后验

本文介绍了贝叶斯统计推断方法,重点讲解了贝叶斯定理及其应用。通过实例展示了如何进行贝叶斯推断,包括先验分布、后验分布的计算,以及在抛硬币实验中的应用。通过实验结果分析,探讨了观测数据增加对后验分布的影响,以及不同先验分布下后验分布的收敛性。还提到了共轭先验在简化计算复杂性中的重要作用。
摘要由CSDN通过智能技术生成

这一节,我们来介绍另外一种统计推断方法:贝叶斯统计推断方法。

1.回顾贝叶斯定理

首先,我们先来复习一下贝叶斯定理:

p ( Θ ∣ X ) = p ( X ∣ Θ ) p ( Θ ) p ( X ) p(\Theta|X)=\frac{p(X|\Theta)p(\Theta)}{p(X)} p(Θ∣X)=p(X)p(X∣Θ)p(Θ)​

在这个简简单单的式子当中,蕴含了我们要掌握的很多重要内容:

贝叶斯定理当中的四个概率表达式,他们都非常重要,在这一节的内容中将反复出现,我们来一一解析一下:

p ( Θ ) p(\Theta) p(Θ):先验分布。 反映的是在观测到数据之前我们对待估计的参数 Θ \Theta Θ的了解和认识。

p ( X ∣ Θ ) p(X|\Theta) p(X∣Θ): 在确定了参数的情况下,试验数据的概率分布。实际上这就是对实际观测数据的一种描述。

p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X):后验分布。 后验分布就是我们通过贝叶斯定理得到的最终的分析结果,反映的是在给定观测数据的基础上,我们对于参数的新的认知。说的更直白一点,就是最开始没有观测数据的时候,我们依据以往的经验赋予了参数一个先验分布,然后来了实际的观测数据之后,我们就对先验进行了更新,得到了这次分析过程的后验分布。

p ( X ) p(X) p(X):边缘概率。 这是一个与我们待估计的参数 Θ \Theta Θ无关的一个边缘概率值: p ( X ) = ∑ θ p ( X , Θ ) = ∑ θ p ( X ∣ Θ ) p ( Θ ) p(X)=\sum_{\theta}p(X,\Theta)=\sum_{\theta}p(X|\Theta)p(\Theta) p(X)=∑θ​p(X,Θ)=∑θ​p(X∣Θ)p(Θ),因此我们并不用太关心这个值,仅仅把他当做是后验概率 p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X)计算过程中的归一化系数即可。

因此我们更需要聚焦的就是如下的这个正比关系:

p ( Θ ∣ X ) ∝ p ( X ∣ Θ ) p ( Θ ) p(\Theta|X)\propto p(X|\Theta)p(\Theta) p(Θ∣X)∝p(X∣Θ)p(Θ)

实际上,有一个概念需要大家树立,那就是后验分布也是不断的处在动态更新过程当中的。一次试验得到的后验分布,对于后续进一步收集到的新的观测数据,他又可以看作是后续分析的一个先验。

2.贝叶斯推断与后验分布

在贝叶斯推断中,我们将待估计的量记为 Θ \Theta Θ,视其为一个随机变量,我们的目标就是基于观测到的样本数据值 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1​,X2​,...,Xn​)来提取 Θ \Theta Θ的信息,我们称 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1​,X2​,...,Xn​)为观测值,那么我们需要首先知道或者明确以下两方面内容:

第一个是视作随机变量 Θ \Theta Θ的待估计未知参数的先验分布 p Θ p_{\Theta} pΘ​,如果 Θ \Theta Θ是连续的则相应的记作是 f Θ f_{\Theta} fΘ​。

第二个是基于参数 Θ \Theta Θ的观测数据的分布模型,也就是条件分布 p X ∣ Θ p_{X|\Theta} pX∣Θ​或者说是 f X ∣ Θ f_{X|\Theta} fX∣Θ​,当然这取决于 Θ \Theta Θ是连续型还是离散型随机变量。

一旦确立了 X X X的观测值 x x x,贝叶斯推断的完整答案就由随机变量 Θ \Theta Θ的后验分布 p Θ ∣ X ( θ ∣ x ) p_{\Theta|X}(\theta|x) pΘ∣X​(θ∣x)或者 f Θ ∣ X ( θ ∣ x ) f_{\Theta|X}(\theta|x) fΘ∣X​(θ∣x)来描述和决定,这个后验分布的计算就是依赖贝叶斯定理来进行的。后验分布的精髓就在于他利用已经得知的观测数据,抓住了关于 Θ \Theta Θ的一切信息。

3.贝叶斯推断求解过程

这里我们总结一下上述的整个过程:

首先,贝叶斯推断的起点是未知随机变量 Θ \Theta Θ的先验分布 p Θ p_{\Theta} pΘ​或者 f Θ f_{\Theta} fΘ​。

然后,我们需要确定观测数据 X X X的分布模型,他是一个基于随机变量 Θ \Theta Θ的条件概率: p X ∣ Θ p_{X|\Theta} pX∣Θ​或者 f X ∣ Θ f_{X|\Theta} fX∣Θ​。

一旦我们观察到了 X X X的一个特定值 x x x之后,我们就可以开始运用贝叶斯法则去计算 Θ \Theta Θ的后验分布:

p Θ ∣ X ( θ ∣ x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) p X ( x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) ∑ θ ′ p Θ ( θ ′ ) p X ∣ Θ ( x ∣ θ ′ ) p_{\Theta|X}(\theta|x)=\frac{p_{\Theta}(\theta)p_{X

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深度学习实战项目

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值