1 准备
条件概率公式
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac {P(B|A)P(A)} {P(B)} P(A∣B)=P(B)P(B∣A)P(A)
P o s t e r i o r ∝ L i k e l i h o o d ∗ P r i o r Posterior \propto Likelihood*Prior Posterior∝Likelihood∗Prior
两个式子对应起来,那么很显然有:
P ( A ∣ B ) ∝ P ( B ∣ A ) P ( B ) P(A|B) \propto P(B|A)P(B) P(A∣B)∝P(B∣A)P(B)
为了更方便理解,我们用一个常用的估计参数 θ \theta θ的例子来进行讲解
P ( θ ∣ X ) ∝ P ( X ∣ θ ) × P ( θ ) P(\theta|X)\propto P(X|\theta) \times P(\theta) P(θ∣X)∝P(X∣θ)×P(θ)
P ( θ ∣ X ) P(\theta|X) P(θ∣X)是后验概率分布, P ( X ∣ θ ) P(X|\theta) P(X∣θ)是似然概率分布, P ( θ ) P(\theta) P(θ)是先验概率分布
对这个公式的直观理解就是:
通过新一波采样得到数据 X X X,我们可以计算出新的 θ \theta θ的概率分布,也就是 P ( θ ∣ X ) P(\theta|X) P(θ∣X)也称对 θ \theta θ的更新、纠正。
通过这个概率分布,我们就可以得到 θ \theta θ的值,计算方法就是求 P ( θ ∣ X ) P(\theta|X) P(θ∣X)这个分布下, θ \theta θ的均值
贝叶斯派的基本思想 vs 频率学派基本思想
在贝叶斯理论中, θ \theta θ 是根据你的观测在不停变的。在这个过程中,每一次的观测,得到的具体数据 X X X则视作固定的。根据观测,会不断地更新这个 θ \theta θ。
频率学派则相反。 θ \theta θ是一直都固定的。
无论你怎样进行采样, θ \theta θ都不会发生改变,因此想要求 θ \theta θ就得利用极大似然估计。这个本文不作介绍。
2 解释
Prior 先验 —— P ( θ ) P(\theta) P(θ)
之前的知识,我们对它刻板印象,没有基于观测的数据思考而进行的猜测。比如这里 θ \theta θ的分布是我们先前根据经验得来的,它的概率分布就是 P ( θ ) P(\theta) P(θ)
Likelihood 似然 —— P ( X ∣ θ ) P(X|\theta) P(X∣θ)
顾名思义,似然就是像这样,因此其表达式肯定看着像,但不是真的。
像什么呢?就是你得到的这些观测数据,像是根据你的先验知识,估计而来而来的。其含义正是这个公式 P ( X ∣ θ ) P(X|\theta) P(X∣θ)。它表示在给定 θ \theta θ的情况下, X X X服从的概率分布。
那么既然只是像,哪里有问题呢?
结合之前所说, X X X是固定的,根本不会随着 θ \theta θ的改变而发生任何变化。
因此,这里仅仅只是似然,假装是 θ \theta θ控制 X X X的生成,假装 θ \theta θ对 X X X的分布起作用。
Posterior 后验—— P ( θ ∣ X ) P(\theta|X) P(θ∣X)
在你有了观测的数据之后,得到的新参数的概率分布。正如贝叶斯的思想所言,控制事务发生概率的参数 θ \theta θ是变化的,它会随着新的观测数据到来,不断改变。
有了它以后,可以根据概率分布求期望(均值),从而进行一些估计。