这一节,我们来介绍另外一种统计推断方法:贝叶斯统计推断方法。
1.回顾贝叶斯定理
首先,我们先来复习一下贝叶斯定理:
p ( Θ ∣ X ) = p ( X ∣ Θ ) p ( Θ ) p ( X ) p(\Theta|X)=\frac{p(X|\Theta)p(\Theta)}{p(X)} p(Θ∣X)=p(X)p(X∣Θ)p(Θ)
在这个简简单单的式子当中,蕴含了我们要掌握的很多重要内容:
贝叶斯定理当中的四个概率表达式,他们都非常重要,在这一节的内容中将反复出现,我们来一一解析一下:
p ( Θ ) p(\Theta) p(Θ):先验分布。 反映的是在观测到数据之前我们对待估计的参数 Θ \Theta Θ的了解和认识。
p ( X ∣ Θ ) p(X|\Theta) p(X∣Θ): 在确定了参数的情况下,试验数据的概率分布。实际上这就是对实际观测数据的一种描述。
p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X):后验分布。 后验分布就是我们通过贝叶斯定理得到的最终的分析结果,反映的是在给定观测数据的基础上,我们对于参数的新的认知。说的更直白一点,就是最开始没有观测数据的时候,我们依据以往的经验赋予了参数一个先验分布,然后来了实际的观测数据之后,我们就对先验进行了更新,得到了这次分析过程的后验分布。
p ( X ) p(X) p(X):边缘概率。 这是一个与我们待估计的参数 Θ \Theta Θ无关的一个边缘概率值: p ( X ) = ∑ θ p ( X , Θ ) = ∑ θ p ( X ∣ Θ ) p ( Θ ) p(X)=\sum_{\theta}p(X,\Theta)=\sum_{\theta}p(X|\Theta)p(\Theta) p(X)=∑θp(X,Θ)=∑θp(X∣Θ)p(Θ),因此我们并不用太关心这个值,仅仅把他当做是后验概率 p ( Θ ∣ X ) p(\Theta|X) p(Θ∣X)计算过程中的归一化系数即可。
因此我们更需要聚焦的就是如下的这个正比关系:
p ( Θ ∣ X ) ∝ p ( X ∣ Θ ) p ( Θ ) p(\Theta|X)\propto p(X|\Theta)p(\Theta) p(Θ∣X)∝p(X∣Θ)p(Θ)
实际上,有一个概念需要大家树立,那就是后验分布也是不断的处在动态更新过程当中的。一次试验得到的后验分布,对于后续进一步收集到的新的观测数据,他又可以看作是后续分析的一个先验。
2.贝叶斯推断与后验分布
在贝叶斯推断中,我们将待估计的量记为 Θ \Theta Θ,视其为一个随机变量,我们的目标就是基于观测到的样本数据值 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)来提取 Θ \Theta Θ的信息,我们称 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)为观测值,那么我们需要首先知道或者明确以下两方面内容:
第一个是视作随机变量 Θ \Theta Θ的待估计未知参数的先验分布 p Θ p_{\Theta} pΘ,如果 Θ \Theta Θ是连续的则相应的记作是 f Θ f_{\Theta} fΘ。
第二个是基于参数 Θ \Theta Θ的观测数据的分布模型,也就是条件分布 p X ∣ Θ p_{X|\Theta} pX∣Θ或者说是 f X ∣ Θ f_{X|\Theta} fX∣Θ,当然这取决于 Θ \Theta Θ是连续型还是离散型随机变量。
一旦确立了 X X X的观测值 x x x,贝叶斯推断的完整答案就由随机变量 Θ \Theta Θ的后验分布 p Θ ∣ X ( θ ∣ x ) p_{\Theta|X}(\theta|x) pΘ∣X(θ∣x)或者 f Θ ∣ X ( θ ∣ x ) f_{\Theta|X}(\theta|x) fΘ∣X(θ∣x)来描述和决定,这个后验分布的计算就是依赖贝叶斯定理来进行的。后验分布的精髓就在于他利用已经得知的观测数据,抓住了关于 Θ \Theta Θ的一切信息。
3.贝叶斯推断求解过程
这里我们总结一下上述的整个过程:
首先,贝叶斯推断的起点是未知随机变量 Θ \Theta Θ的先验分布 p Θ p_{\Theta} pΘ或者 f Θ f_{\Theta} fΘ。
然后,我们需要确定观测数据 X X X的分布模型,他是一个基于随机变量 Θ \Theta Θ的条件概率: p X ∣ Θ p_{X|\Theta} pX∣Θ或者 f X ∣ Θ f_{X|\Theta} fX∣Θ。
一旦我们观察到了 X X X的一个特定值 x x x之后,我们就可以开始运用贝叶斯法则去计算 Θ \Theta Θ的后验分布:
p Θ ∣ X ( θ ∣ x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) p X ( x ) = p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) ∑ θ ′ p Θ ( θ ′ ) p X ∣ Θ ( x ∣ θ ′ ) p_{\Theta|X}(\theta|x)=\frac{p_{\Theta}(\theta)p_{X