【机器学习概率统计】11 贝叶斯统计推断：最大后验

最新推荐文章于 2024-10-03 07:00:00 发布

深度学习实战项目

最新推荐文章于 2024-10-03 07:00:00 发布

阅读量295

点赞数 5

分类专栏： YOLO目标检测全栈实战：从v5到v10的百项项目精解文章标签：机器学习概率论人工智能算法线性代数

本文链接：https://blog.csdn.net/m0_52343631/article/details/136227749

版权

YOLO目标检测全栈实战：从v5到v10的百项项目精解专栏收录该内容

267 篇文章 313 订阅 ¥79.90 ¥99.00

订阅专栏

本文介绍了贝叶斯统计推断方法，重点讲解了贝叶斯定理及其应用。通过实例展示了如何进行贝叶斯推断，包括先验分布、后验分布的计算，以及在抛硬币实验中的应用。通过实验结果分析，探讨了观测数据增加对后验分布的影响，以及不同先验分布下后验分布的收敛性。还提到了共轭先验在简化计算复杂性中的重要作用。

摘要由CSDN通过智能技术生成

这一节，我们来介绍另外一种统计推断方法：贝叶斯统计推断方法。

1.回顾贝叶斯定理

首先，我们先来复习一下贝叶斯定理：

p ( Θ ∣ X ) = p ( X ∣ Θ ) p ( Θ ) p ( X ) p(\Theta|X)=\frac{p(X|\Theta)p(\Theta)}{p(X)} p(Θ∣X)=p(X)p(X∣Θ)p(Θ)

在这个简简单单的式子当中，蕴含了我们要掌握的很多重要内容：

贝叶斯定理当中的四个概率表达式，他们都非常重要，在这一节的内容中将反复出现，我们来一一解析一下：

p ( Θ ) p(\Theta) p(Θ)：先验分布。 反映的是在观测到数据之前我们对待估计的参数 Θ \Theta Θ的了解和认识。

p ( X ∣ Θ ) p(X|\Theta) p(X∣Θ)： 在确定了参数的情况下，试验数据的概率分布。实际上这就是对实际观测数据的一种描述。

p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X)：后验分布。 后验分布就是我们通过贝叶斯定理得到的最终的分析结果，反映的是在给定观测数据的基础上，我们对于参数的新的认知。说的更直白一点，就是最开始没有观测数据的时候，我们依据以往的经验赋予了参数一个先验分布，然后来了实际的观测数据之后，我们就对先验进行了更新，得到了这次分析过程的后验分布。

p ( X ) p(X) p(X)：边缘概率。 这是一个与我们待估计的参数 Θ \Theta Θ无关的一个边缘概率值： p ( X ) = ∑ θ p ( X , Θ ) = ∑ θ p ( X ∣ Θ ) p ( Θ ) p(X)=\sum_{\theta}p(X,\Theta)=\sum_{\theta}p(X|\Theta)p(\Theta) p(X)=∑θp(X,Θ)=∑θp(X∣Θ)p(Θ)，因此我们并不用太关心这个值，仅仅把他当做是后验概率 p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X)计算过程中的归一化系数即可。

因此我们更需要聚焦的就是如下的这个正比关系：

p ( Θ ∣ X ) ∝ p ( X ∣ Θ ) p ( Θ ) p(\Theta|X)\propto p(X|\Theta)p(\Theta) p(Θ∣X)∝p(X∣Θ)p(Θ)

实际上，有一个概念需要大家树立，那就是后验分布也是不断的处在动态更新过程当中的。一次试验得到的后验分布，对于后续进一步收集到的新的观测数据，他又可以看作是后续分析的一个先验。

2.贝叶斯推断与后验分布

在贝叶斯推断中，我们将待估计的量记为 Θ \Theta Θ，视其为一个随机变量，我们的目标就是基于观测到的样本数据值 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)来提取 Θ \Theta Θ的信息，我们称 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)为观测值，那么我们需要首先知道或者明确以下两方面内容：

第一个是视作随机变量 Θ \Theta Θ的待估计未知参数的先验分布 p Θ p_{\Theta} pΘ，如果 Θ \Theta Θ是连续的则相应的记作是 f Θ f_{\Theta} fΘ。

第二个是基于参数 Θ \Theta Θ的观测数据的分布模型，也就是条件分布 p X ∣ Θ p_{X|\Theta} pX∣Θ或者说是 f X ∣ Θ f_{X|\Theta} fX∣Θ，当然这取决于 Θ \Theta Θ是连续型还是离散型随机变量。

一旦确立了 X X X的观测值 x x x，贝叶斯推断的完整答案就由随机变量 Θ \Theta Θ的后验分布 p Θ ∣ X ( θ ∣ x ) p_{\Theta|X}(\theta|x) pΘ∣X(θ∣x)或者 f Θ ∣ X ( θ ∣ x ) f_{\Theta|X}(\theta|x) fΘ∣X(θ∣x)来描述和决定，这个后验分布的计算就是依赖贝叶斯定理来进行的。后验分布的精髓就在于他利用已经得知的观测数据，抓住了关于 Θ \Theta Θ的一切信息。

3.贝叶斯推断求解过程

这里我们总结一下上述的整个过程：

首先，贝叶斯推断的起点是未知随机变量 Θ \Theta Θ的先验分布 p Θ p_{\Theta} pΘ或者 f Θ f_{\Theta} fΘ。

然后，我们需要确定观测数据 X X X的分布模型，他是一个基于随机变量 Θ \Theta Θ的条件概率： p X ∣ Θ p_{X|\Theta} pX∣Θ或者 f X ∣ Θ f_{X|\Theta} fX∣Θ。

一旦我们观察到了 X X X的一个特定值 x x x之后，我们就可以开始运用贝叶斯法则去计算 Θ \Theta Θ的后验分布：

p Θ ∣ X ( θ ∣ x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) p X ( x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) ∑ θ ′ p Θ ( θ ′ ) p X ∣ Θ ( x ∣ θ ′ ) p_{\Theta|X}(\theta|x)=\frac{p_{\Theta}(\theta)p_{X

了解本专栏