第一章:概率推理
联合概率分布
所谓联合概率分布,就是同时考虑多个(>=2)随机试验,考察这些试验之间的依赖关系。一个概率图模型就是一个联合概率分布,除此之外,并无他物。
联合概率分布的一个重要概念是边缘化(Marginalization),当你考察几个随机变量的概率分布,即联合概率分布时,你也许想消去一些变量,得到较少变量的分布。即求联合分布P(X,Y)的边缘分布P(X):
P ( X ) = ∑ y P ( X , Y ) P(X)=\sum_{y}^{}P(X,Y) P(X)=y∑P(X,Y)
按照y所有可能的取值汇总概率 。通过这个操作可以直接从P(X,Y)中消除Y,当y为连续值时可以写做:
P ( X ) = ∫ y P ( X , y ) d y P(X)=\int_{y}^{}P(X,y)dy P(X)=∫yP(X,y)dy
贝叶斯规则
条件概率更形式化的公式:
P ( X ∣ Y ) = P ( X , Y ) P ( Y ) P(X|Y)=\frac{P(X,Y)}{P(Y)} P(X∣Y)=P(Y)P(X,Y)
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
从而可以轻松地推出贝叶斯公式:
P ( X ∣ Y ) = P ( Y ∣ X ) P ( X ) P ( Y ) P(X|Y)=\frac{P(Y|X)P(X)}{P(Y)} P(X∣Y)=P(Y)P(Y∣X)P(X)
在这个公式中,我们把 P ( X ∣ Y ) P(X|Y) P(X∣Y)叫做给定Y下X的后验分布。因此我们也把 P ( X ) P(X) P(X)叫做先验分布。我们也把 P ( Y ∣ X ) P(Y|X) P(Y∣X)叫做似然率, P ( Y ) P(Y) P(Y)叫做归一化因子。这个公式是最重要的公式,是拉普拉斯生涯的杰作,是现代科学最重要的公式之一。然而它也非常简单。
我们再解释一下归一化因子:
P ( X , Y ) = P ( X ∣ Y ) P ( Y ) = P ( Y ∣ X ) P ( X ) P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)