贝叶斯定理:
公式解析:
条件概率公式:
设 A A A, B B B是两个事件,且 P ( A ) , P ( B ) > 0 P(A),P(B)>0 P(A),P(B)>0,则在事件 B B B发生的条件下,事件 A A A发生的条件概率(conditional probability)为:
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(B)
概率乘法公式:
由条件概率公式得(事件 A B AB AB同时发生的概率=在事件 B B B发生的条件下,事件 A A A发生的条件概率*事件 B B B发生的条件概率=在事件 A A A发生的条件下,事件 B B B发生的条件概率*事件 B B B发生的条件概率):
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
乘法公式的推广:对于任何正整数
n
≥
2
n≥2
n≥2,当
P
(
A
1
A
2
…
A
n
−
1
)
>
0
P(A_1A_2\ldots A_{n-1}) > 0
P(A1A2…An−1)>0 时,有:
P
(
A
1
A
2
.
.
.
A
n
1
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
P
(
A
3
∣
A
1
A
2
)
…
P
(
A
n
∣
A
1
A
2
…
A
n
−
1
)
P(A_1A_2...A_{n_1A_n})=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\ldots P(A_n|A_1A_2\ldots A_{n-1})
P(A1A2...An1An)=P(A1)P(A2∣A1)P(A3∣A1A2)…P(An∣A1A2…An−1)
全概率公式:
如果事件组 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…满足 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…两两互斥,即 B i ∩ B j = ∅ , i ≠ j , i , j = 1 , 2 , … B_i\cap B_j=\emptyset,i≠j ,i,j=1,2,\ldots Bi∩Bj=∅,i̸=j,i,j=1,2,…,且 P ( B i ) > 0 , i = 1 , 2 , … P(B_i)>0,i=1,2,\ldots P(Bi)>0,i=1,2,…;
B 1 ∪ B 2 ∪ … = Ω B_1 \cup B_2 \cup \ldots=\Omega B1∪B2∪…=Ω,则称事件组 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…是样本空间 Ω \Omega Ω的一个划分.
设 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…是样本空间 Ω \Omega Ω的一个划分, A A A为任一事件,则:
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right) P(A)=∑i=1∞P(Bi)P(A∣Bi)
上式即为全概率公式(formula of total probability)
全概率公式的意义在于,当直接计算
P
(
A
)
P(A)
P(A)较为困难,而
P
(
B
i
)
,
P
(
A
∣
B
i
)
(
i
=
1
,
2
,
.
.
.
)
P(B_i),P(A|B_i) (i=1,2,...)
P(Bi),P(A∣Bi)(i=1,2,...)的计算较为简单时,可以利用全概率公式计算
P
(
A
)
P(A)
P(A)。思想就是,将事件
A
A
A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件
A
A
A的概率,而将事件
A
A
A进行分割的时候,不是直接对
A
A
A进行分割,而是先找到样本空间
Ω
\Omega
Ω的一个个划分
B
1
,
B
2
,
…
,
B
n
B_1,B_2,\ldots,B_n
B1,B2,…,Bn,这样事件
A
A
A就被事件
A
B
1
,
A
B
2
,
…
,
A
B
n
AB_1,AB_2,\ldots,AB_n
AB1,AB2,…,ABn分解成了n部分,即
A
=
A
B
1
+
A
B
2
+
…
+
A
B
n
A=AB_1+AB_2+\ldots+AB_n
A=AB1+AB2+…+ABn, 每一
B
i
B_i
Bi发生都可能导致
A
A
A发生相应的概率是
P
(
A
∣
B
i
)
P(A|B_i)
P(A∣Bi),由加法公式得
$$
P(A)=P(AB1)+P(AB2)+\ldots+P(ABn)
\=P(A|B1)P(B1)+P(A|B2)P(B2)+\ldots+P(A|Bn)P(PBn)
$$
贝叶斯公式:
与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件
A
A
A已经发生的条件下,分割中的小事件
B
i
B_i
Bi的概率),设
B
1
,
B
2
,
…
B_1,B_2,\ldots
B1,B2,…是样本空间
Ω
\Omega
Ω的一个划分,则对任一事件
A
A
A,有
P
(
B
i
∣
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)}
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
上式即为贝叶斯公式(Bayes formula),
B
i
B_i
Bi 常被视为导致试验结果
A
A
A发生的“原因”,
P
(
B
i
)
(
i
=
1
,
2
,
…
)
P(B_i)(i=1,2,\ldots)
P(Bi)(i=1,2,…)表示各种原因发生的可能性大小,故称先验概率;
P
(
B
i
∣
A
)
(
i
=
1
,
2
,
…
)
P(B_i|A)(i=1,2,\ldots)
P(Bi∣A)(i=1,2,…)则反映当试验产生了结果
A
A
A之后,再对各种原因概率的新认识,故称后验概率。
举个例子解释:
假设你是负责机器保养的,你关注这台机器是否运作正常,那么从直觉上说,如果这台机器的生产的产品次品率升高,就很可能意味着这台机器出问题;次品率不高,可能意味着机器运作良好。
1、 P ( G ) P(G) P(G)表示产品(goods)合格的可能性(合格率)(属于先验知识)
2、 P ( M ) P(M) P(M)表示机器(machine)运行良好的可能性。在不了解产品情况下,机器本身有多大可能性是运作良好的,这个可以基于机器出厂指标,或者历史数据来得到,这里我们已经知道是75%。(属于先验知识)
3、 P ( G ∣ M ) P(G|M) P(G∣M)表示机器运行良好情况下生产合格品的可能性
4、 P ( M ∣ G ) P(M|G) P(M∣G)表示我们观察到一件合格品后,有多大信心认为机器运作良好
我们很容易知道的是123的可能性,但实际我们需要的是4的数据。如果你的领导跑过来问你,机器今天怎么样,你说应该没问题啊,并且拿给刚刚做好的一个产品给他看——“瞧,这个产品是好的,所以机器多半也是好的”。在这个过程中,这个产品的好坏,实际上是被你当作了一个证据(Evidence)来支持机器运作正常这个假设(Hypotheis)。但是仅有这个证据,实际上是不够的。我们需要确实把4概率算出来。
如果你的领导跑过来问你,机器今天怎么样,你说应该没问题啊,并且拿给刚刚做好的一个产品给他看——“瞧,这个产品是好的,所以机器多半也是好的”。在这个过程中,这个产品的好坏,实际上是被你当作了一个证据(Evidence)来支持机器运作正常这个假设(Hypotheis)。
但是仅有这个证据,实际上是不够的。
我们可以把上述贝叶斯公式稍微改写一下,成为:
P
(
M
∣
G
)
=
P
(
G
∣
M
)
P
(
M
)
P
(
G
)
P(M | G)=P(G | M) \frac{P(M)}{P(G)}
P(M∣G)=P(G∣M)P(G)P(M)
现在可以看到等式右侧被分成了两部分:
P ( G ∣ M ) P(G | M) P(G∣M)反映了我们的直觉——假设成立的话,那么多大可能性会产生这个证据
P ( M ) P ( G ) \frac{P(M)}{P(G)} P(G)P(M)反映了假设和证据各自先验概率对最终结果的影响。
我务必要在这里插播一些题外话,这样看待贝叶斯公式的视角非常重要,因为人通常重视证据,但是忽略先验概率,这也是很多歧视,偏见,以及无谓恐慌的来源。
回到机器保养的问题上来,我们的目标是根据产品合格这个证据来倒推机器运作良好这个假设成立的可能性,那么良好机器会产生合格产品的概率
P
(
G
∣
M
)
P(G|M)
P(G∣M)我们已经知道是90%,接下来就是要考虑两个先验概率:
P
(
M
)
P(M)
P(M)在不了解产品情况下,机器本身有多大可能性是运作良好的,这个可以基于机器出厂指标,或者历史数据来得到,这里我们已经知道是75%。
P
(
G
)
P(G)
P(G)产品合格的先验概率是多少。这里一定要注意不能因为你手上拿了一件合格产品,就说
P
(
G
)
P(G)
P(G)是100%,实际上这个概率是要根据以下这个公式(即全概率公式)计算出来的:
P
(
G
)
=
P
(
G
∣
M
)
P
(
M
)
+
P
(
G
∣
M
‾
)
P
(
M
‾
)
P(G)=P(G | M) P(M)+P(G | \overline{M}) P(\overline{M})
P(G)=P(G∣M)P(M)+P(G∣M)P(M)
什么意思呢,就是产品合格的概率等于机器运作良好和不良好各自情况下的加权和,权重自然是机器运作良好与否的概率。
说到这里,计算就是水到渠成了。
集合图形法解释:
首先把全空间分割成若干个集合 B i B_i Bi ,如下图
接着全空间里还有另外一个集合(事件) A A A ,见图2灰色区域
现在全空间可以更加细致的分割为图3
现在考察绿色方块,也就是 P ( A ∩ B 2 ) = P ( A B 2 ) P\left(A \cap B_{2}\right)=P\left(A B_{2}\right) P(A∩B2)=P(AB2)区域
我们借用物理学中的参考系概念。
以全空间为参考系,则事件
A
A
A和
B
2
B_{2}
B2发生的概率分别为
P
(
A
∣
Ω
)
=
P
(
A
)
P
(
B
2
∣
Ω
)
=
P
(
B
2
)
P(A | \Omega)=P(A) \quad P\left(B_{2} | \Omega\right)=P\left(B_{2}\right)
P(A∣Ω)=P(A)P(B2∣Ω)=P(B2)
上述的概率其实也可以等效于图2中相应的方块面积。
但是事件 A ∩ B 2 A \cap B_{2} A∩B2在不同的参考系下看的结果是不一样的,有句古话说"情人眼里出西施",一样的道理。我看先看下图
如果以 A A A为参考系(以为 A A A视角),看待发 A ∩ B 2 A \cap B_{2} A∩B2生的概率(也就是所谓的条件概率)为
P ( B 2 ∣ A ) = P ( A B 2 ) P ( A ) P\left(B_{2} | A\right)=\frac{P\left(A B_{2}\right)}{P(A)} P(B2∣A)=P(A)P(AB2)
上述公式本质上就是进行了归一化,也就是从全空间的角度切换到了参考系 A A A。同样一个事件我 A ∩ B 2 A \cap B_{2} A∩B2们也可以从的 B 2 B_2 B2视角来看待(关注右上角的方块),得到
P ( A ∣ B 2 ) = P ( A B 2 ) P ( B 2 ) P\left(A | B_{2}\right)=\frac{P\left(A B_{2}\right)}{P\left(B_{2}\right)} P(A∣B2)=P(B2)P(AB2)
于是有了
P ( A B 2 ) = P ( A B 2 ) P ( Ω ) = P ( B 2 ) P ( A ∣ B 2 ) = P ( A ) P ( B 2 ∣ A ) P\left(A B_{2}\right)=P\left(A B_{2}\right) P(\Omega)=P\left(B_{2}\right) P\left(A | B_{2}\right)=P(A) P\left(B_{2} | A\right) P(AB2)=P(AB2)P(Ω)=P(B2)P(A∣B2)=P(A)P(B2∣A)
上述公式本质上说的是在不同相对坐标系下一个事件发生的概率,都可以转换到同一个绝对坐标系下来。另外一个很不严谨的类比就是不同速度飞行的飞船来观察某个物理现象,得到的结论不太一致,但是却有着本质的联系。
贝叶斯其实是想告诉我们,一千个读者有一千个哈姆雷特,但是世界上(全空间坐标系,唯物主义)只有一个哈姆雷特。。。
总结:
贝叶斯定理特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知 P ( A ∣ B ) P(A|B) P(A∣B)的情况下如何求得 P ( B ∣ A ) P(B|A) P(B∣A)。这里先解释什么是条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A | B)=\frac{P(A B)}{P(B)} P(A∣B)=P(B)P(AB)
P ( A ∣ B ) P(A|B) P(A∣B)表示事件 B B B已经发生的前提下,事件 A A A发生的概率,叫做事件 B B B发生下事件 A A A的条件概率。其基本求解公式为: P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B | A)=\frac{P(A | B) P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)。
贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出 P ( A ∣ B ) P(A|B) P(A∣B), P ( B ∣ A ) P(B|A) P(B∣A)则很难直接得出,但我们更关心 P ( B ∣ A ) P(B|A) P(B∣A),贝叶斯定理就为我们打通从 P ( A ∣ B ) P(A|B) P(A∣B)获得 P ( B ∣ A ) P(B|A) P(B∣A)的道路。
下面再次贝叶斯定理:
P
(
B
∣
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
)
P(B | A)=\frac{P(A | B) P(B)}{P(A)}
P(B∣A)=P(A)P(A∣B)P(B)