贝叶斯公式
在共轭先验分布(Conjugate prior distribution)之前,先复习贝叶斯公式,概括地来说,贝叶斯公式是对因果关系的总结。
贝叶斯学派里的最基本的观点就是,对于任何一个未知量都可以使用概率分布来描述其未知的状况,而这个概率分布是在抽样之前,就基于已有的知识对于这个未知量进行的预估,这在贝叶斯公式里面被称作 先验分布(即式中 p(Ai) ),然后再基于样本的分布情况,最后在考虑到所有因素的情况下得出 后验分布(即 p(Ai|B) )。
贝叶斯公式牵涉到较为复杂的计算,特别是当其先验分布很复杂时,这个时候就需要一种能够简化计算的方法,这就需要引入下一个概念——共轭先验分布。
共轭先验分布
先下定义
设
θ
是总体分布中的参数(或参数向量),
π(θ)
是
θ
的先验密度函数,假如由抽样信息算得的后验密度函数与
π(θ)
有相同的函数形式,则称
π(θ)
是
θ
的(自然)共轭先验分布。
这里通过举一个例子来展示何为共轭先验分布。
设一事件A的概率
p(A)=θ
。为了估计
θ
的值,作了
n
次独立观察,其中事件A出现的次数为
因此
利用贝叶斯公式,我们首先需要确定先验概率
p(θ)
。在未得到其余信息前,我们只能认为
θ
在
(0,1)
上均匀分布,这是一种不失偏颇的先验估计。
到这里我们就已经可以计算出
p(x,θ)
这一联合概率分布。
然后通过联合概率分布,我们又可以得出 p(x) 的边缘概率分布。
综合以上可得 θ 的后验分布(如果不熟悉贝塔、伽马分布,可以看 博文:贝塔、伽马分布 )
细心点就会发现这个分布就是参数为 (x+1)和(n−x+1) 的贝塔分布,即 p(θ|x) Be(x+1,n−x+1) 。更奇妙的是先验分布 p(θ) ,区间(0,1)上的均匀分布也是一种特殊的贝塔分布Be(1,1)。常见的共轭先验分布参见—— 常见的共轭先验分布。
共轭先验分布的优势
由贝叶斯公式可以看出 θ 的后验分布正比于 p(x|θ)p(θ) ,由于 p(x) 中没有参数 θ ,因此可以被当做一个正则化常数。当共轭先验分布是一个常见的分布时,可以很快地补出所需的常数项,从而得出后验分布。
一般来说,共轭先验分布的选择是由似然函数 L(θ)=p(x|θ) 中所含的 θ 的因式确定。但是需要注意的是先验分布的确定首要保证合理性,然后再考虑计算的方便。
常见的共轭先验分布参见——常见的共轭先验分布
共轭先验分布的参数确定
如对于总体为二项分布,其成功概率的共轭先验分布为 Beta(α,β) ,在确定了共轭先验分布之后,我们还需要确定先验分布中的参数,像这里的 (α,β) 。因此下面介绍两种常见方法来确定其参数。
先验矩
假如利用先验信息能得到成功概率 θ 的若干个估计值, θ1、θ2、...、θk 。由此可算得先验均值 θ¯ 和先验方差 S2θ 。
θ¯=1k∑i=1kθi,S2θ=1k−1∑i=1k(θi−θ¯)2
同时由先验分布贝塔分布 Beta(α,β) ,可以得出 (α,β) 表示的期望和方差。可列方程组:
⎧⎩⎨⎪⎪⎪⎪θ¯=αα+βS2θ=αβ(α+β)2(α+β+1)
由此可解得 (α,β) 的值。先验分位数
若由先验信息可以确定贝塔分布的两个分位数,则可由分位数的定义列出两个方程组同样接触所需参数。
常见的共轭先验分布
参考资料
- 《贝叶斯统计》,茆诗松

本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

本文深入探讨了贝叶斯公式的基本原理及其在概率推断中的应用,详细介绍了共轭先验分布的概念、定义和计算方法,通过实例展示了如何选择合适的共轭先验分布以及如何确定其参数。文章还提供了常见的共轭先验分布列表,并讨论了它们在不同统计模型中的应用。
1014

被折叠的 条评论
为什么被折叠?



