在统计分析,特别是近来很热门的机器学习领域,贝叶斯公式在其中起来重要作用。本文对其中几个关键点进行了解释。
一、 贝叶斯公式
π ( θ ∣ x ) = π ( θ ) ∗ f ( x ∣ θ ) ∫ p ( x , θ ) d θ \pi\left(\theta\mid{x}\right)=\frac{\pi(\theta)*f(x\mid{\theta})}{\int{p(x,\theta)d\theta}} π(θ∣x)=∫p(x,θ)dθπ(θ)∗f(x∣θ) = π ( θ ) ∗ f ( x ∣ θ ) ∫ p ( θ ) f ( x ∣ θ ) d θ =\frac{\pi(\theta)*f(x\mid{\theta})}{\int{p(\theta)f(x\mid\theta)d\theta}} =∫p(θ)f(x∣θ)dθπ(θ)∗f(x∣θ)
其中:
π
(
θ
)
\pi(\theta)
π(θ)是先验概率,在贝叶斯统计推断中表示 研究者对
θ
\theta
θ的主观认识,不同的研究者对同一个问题可能采用不同的模型。由于它带有强烈的主观色彩,是研究者的个人信念,在实际中经常会引起置疑。这一点也是贝叶斯统计方法与基于频率的统计方法的重大不同所在。
x
x
x是观察值,通常假定它是一个由
f
(
x
∣
θ
)
f(x\mid\theta)
f(x∣θ)分布密度所确定的随机样本。公式的分母是
x
x
x的边缘分布。
π
(
θ
∣
x
)
\pi\left(\theta\mid{x}\right)
π(θ∣x)是后验分布。
f
(
x
∣
θ
)
f(x\mid\theta)
f(x∣θ)是似然。
对公式的解释
该公式是求取当获得新的观察值 x x x后,对关于 θ \theta θ的先验分布的修正,即后验概率。
也就是说,随着新的观察值的不断获得,关于 θ \theta θ的知识在不断地改变,亦即从 π ( θ ) \pi(\theta) π(θ)到 π ( θ ∣ x ) \pi\left(\theta\mid{x}\right) π(θ∣x),这点也是统计推断的主要含义。
二、预测性推理
p ( y ∣ x ) = ∫ f ( y ∣ θ ) π ( θ ∣ x ) d θ = E π ( f ( y ∣ θ ) ∣ x ) \hspace{3cm}p(y\mid{x})=\int f(y\mid\theta)\pi(\theta\mid{x})d\theta=E_\pi(f(y\mid\theta)\mid{x}) p(y∣x)=∫f(y∣θ)π(θ∣x)dθ=Eπ(f(y∣θ)∣x)
这里 y y y是已知 x x x时,对未来样本的预测。
p ( y ∣ x ) \hspace{1.3cm}p(y\mid{x}) p(y∣x)是抽样分布 f ( y ∣ θ ) f(y\mid\theta) f(y∣θ)依后验分布 π ( θ ∣ x ) \pi\left(\theta\mid{x}\right) π(θ∣x)的期望值,反映了研究者的置信度。将之看成是期望值具有现实的好处,即提供了具体的实现方法,在实际估计 p ( y ∣ x ) p(y\mid{x}) p(y∣x)时可以采用求样本均值的方法来做。
三、共轭先验(Conjugate Priors)
共轭先验是一种在数学上方便的指定先验模型的方法。 通过导致计算上可处理的后验分布,它们使得贝叶斯统计分析易于实现。该概念在贝叶斯统计推断中具有重要作用。
下面给出其定义:
假定 F = { f ( ⋅ ∣ θ ) ; ∀ θ ∈ Θ } \mathscr F = \left\{ f(\cdot\mid\theta);\forall\theta \in\Theta\right\} F={f(⋅∣θ);∀θ∈Θ}是采样分布的参数化模型类。 P = { π ( ⋅ ∣ τ ) ; ∀ τ } \mathscr P = \left\{ \pi(\cdot\mid\tau);\forall\tau\right\} P={π(⋅∣τ);∀τ}是 θ \theta θ的先验分布(注意:这里的 τ \tau τ是说明参数 θ \theta θ本身可能也是一个参数化模型,这是的参数是 τ \tau τ,不要与后验分布 π ( θ ∣ x ) \pi\left(\theta\mid{x}\right) π(θ∣x)搞混了。
称类 P \mathscr P P是 F \mathscr F F 的共轭,如果满足:
π ( θ ∣ x ) ∈ P , ∀ f ( ⋅ ∣ θ ) ∈ F a n d π ( ⋅ ) ∈ P \hspace{3cm}\pi(\theta\mid{x})\in \mathscr P,\forall{f(\cdot\mid\theta)\in\mathscr F}{\hspace{0.3cm}and }\hspace{0.3cm}\pi(\cdot)\in\mathscr P π(θ∣x)∈P,∀f(⋅∣θ)∈Fandπ(⋅)∈P
说明:简单地说,如果选择先验分布与参数化模型共轭,则通过贝叶斯公式计算得到的后验分布与先验分布具有同样的形式,从而新的观察值获得后,只是影响后验分布的参数,不需要每次都用贝叶斯公式进行计算,只是更新参数即可,也就是说可以简化推理过程。这是引入共轭分布概念的主要原因。