在概率论与数理统计中,有两个相当重要的公式——全概率公式与贝叶斯公式。然而很多人对这两个公式感到非常迷茫。一来不知道公式背后的意义所在,二来不知道这些冰冷的公式能有什么现实应用。
1. 全概率公式
在讲全概率公式之前,首先要理解什么是“完备事件群”。
我们将满足
这样的一组事件称为一个“完备事件群”。简而言之,就是事件之间两两互斥,所有事件的并集是整个样本空间(必然事件)。
假设我们要研究事件A。我们希望能够求出P(A)P(A),但是经过一番探索,却发现P(A)P(A)本身很难直接求出,不过却能够比较容易地求出各个P(Bi)P(Bi),以及相应的条件概率P(A|Bi)P(A|Bi)。
能不能根据这些信息,间接地求出P(A)P(A)呢?
这当然是可以的。
我们不要忘记,BiBi是两两互斥的。
显然,AB1AB1,AB2AB2,AB3AB3,⋯⋯也是两两互斥的。1
一说到两两互斥,我们就想到了概率的加法定理:2
再根据条件概率的定义,我们得到了教科书上的全概率公式:
这样费了一番周折,我们总算得到了所求的P(A)P(A)。可以发现,虽然P(A)P(A)本身不好求,但我们可以根据它散落的“碎片”间接地将其求出。但不是所有情况都是能这样求出的——我们必须保证B1B1,B2B2,B3B3,⋯⋯是一个完备事件群。这个其实也很好理解,假如你想将一个碎掉的花瓶重新还原,碎片如果不全,或者碎片之间出现了多余的“重叠”,还原工作都将以失败告终。
全概率公式可以从另一个角度去理解,把BiBi看作是事件AA发生的一种“可能途径”,若采用了不同的途径,AA发生的概率,也就是相应的条件概率P(A|Bi)P(A|Bi)也会不同。但是,我们事先却并不知道将会走哪条途径,换言之,途径的选择是随机的3,这样就导致了不同途径被选中的可能性也许也会存在差异,这就是P(Bi)P(Bi)所表达的含义。这样一来,我们最终所要求的P(A)P(A),实际上就是一个不同路径概率的加权平均。