在了解贝叶斯公式之前,我们先了解一下几个简单的概念
条件概率
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率为:
P
(
A
∣
B
)
=
P
(
A
B
)
/
P
(
B
)
\mathrm{P}(\mathrm{A} | \mathrm{B})=\mathrm{P}(\mathrm{AB}) / \mathrm{P}(\mathrm{B})
P(A∣B)=P(AB)/P(B)
由 乘法原理可得:
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
\mathrm{P}(\mathrm{AB})=\mathrm{P}(\mathrm{A} | \mathrm{B}) \mathrm{P}(\mathrm{B})=\mathrm{P}(\mathrm{B} | \mathrm{A}) \mathrm{P}(\mathrm{A})
P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
全概率公式
如果事件组B1,B2,… 满足
1.
B
1
,
B
2....
两
两
互
斥
,
即
B
i
∩
B
j
=
∅
,
i
≠
j
,
i
,
j
=
1
,
2
,
.
.
.
.
,
且
P
(
B
i
)
>
0
,
i
=
1
,
2
,
.
.
.
.
;
1.B1,B2....两两互斥,即 Bi ∩ Bj = ∅ ,\mathrm{i} \neq \mathrm{j} , i,j=1,2,....,且P(Bi)>0,i=1,2,....;
1.B1,B2....两两互斥,即Bi∩Bj=∅,i=j,i,j=1,2,....,且P(Bi)>0,i=1,2,....;
2.
B
1
∪
B
2
∪
.
.
.
.
=
Ω
,
则
称
事
件
组
B
1
,
B
2
,
.
.
.
是
样
本
空
间
Ω
的
一
个
划
分
2.B1∪B2∪....=Ω ,则称事件组 B1,B2,...是样本空间Ω的一个划分
2.B1∪B2∪....=Ω,则称事件组B1,B2,...是样本空间Ω的一个划分
设
B
1
,
B
2
,
.
.
.
是
样
本
空
间
Ω
的
一
个
划
分
,
A
为
任
一
事
件
,
则
:
设 B1,B2,...是样本空间Ω的一个划分,A为任一事件,则:
设B1,B2,...是样本空间Ω的一个划分,A为任一事件,则:
P
(
A
)
=
P
(
A
B
1
)
+
P
(
A
B
2
)
+
…
.
+
P
(
A
B
n
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
+
…
+
P
(
A
∣
B
n
)
P
(
P
B
n
)
=
∑
i
=
1
n
P
(
B
i
)
P
(
A
∣
B
i
)
\begin{aligned} \mathrm{P}(\mathrm{A}) &=\mathrm{P}\left(\mathrm{AB}_{1}\right)+\mathrm{P}\left(\mathrm{AB}_{2}\right)+\ldots .+\mathrm{P}\left(\mathrm{AB}_{\mathrm{n}}\right) \\ &=\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{1}\right) \mathrm{P}\left(\mathrm{B}_{1}\right)+\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{2}\right) \mathrm{P}\left(\mathrm{B}_{2}\right)+\ldots+\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{\mathrm{n}}\right) \mathrm{P}\left(\mathrm{PB}_{\mathrm{n}}\right) \end{aligned}\\=\sum_{i=1}^{n} P\left(B_{i}\right) \mathrm{P}\left(\mathrm{A} | B_{i}\right)
P(A)=P(AB1)+P(AB2)+….+P(ABn)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+…+P(A∣Bn)P(PBn)=i=1∑nP(Bi)P(A∣Bi)
举例说明:
假设有3个盒子b1,b2,b3中分别有若干个白球和黑球,现将三个盒子的球倒入一个箱子,其中各个盒子球的数量在这个箱子中分别占45%,35%,20%;已知从每个盒子里面取出白球的概率分别为1/5、1/4、1/3;求从中拿出白球的概率,和拿出的白球是在b1盒子中的概率?
- 1.这个箱子就是一个样本空间,而三个盒子的求倒入这个箱子是将这个箱子划分为三个部分,即样本的划分为b1,b2,b3;
- 求从箱子中拿出白球的概率,这里那出白球就是事件A,设拿出的球来自
b
i
b_i
bi的概率为P(
B
i
B_i
Bi),
则P( B 1 B_1 B1)=0.45, P( B 2 B_2 B2)=0.35, P( B 3 B_3 B3)=0.25
P( A ∣ B 1 A|B_1 A∣B1)=1/5 , P( A ∣ B 2 A|B_2 A∣B2)=1/4, P( A ∣ B 3 A|B_3 A∣B3)=1/2
这里由全概率公式可以得到拿出的球是白球的概率:
P ( A ) = P ( A B 1 ) + P ( A B 2 ) + P ( A B 3 ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + P ( A ∣ B 3 ) P ( P B 3 ) = ∑ i = 1 3 P ( B i ) P ( A ∣ B i ) \begin{aligned} \mathrm{P}(\mathrm{A}) &=\mathrm{P}\left(\mathrm{AB}_{1}\right)+\mathrm{P}\left(\mathrm{AB}_{2}\right)+\mathrm{P}\left(\mathrm{AB}_{\mathrm{3}}\right) \\ &=\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{1}\right) \mathrm{P}\left(\mathrm{B}_{1}\right)+\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{2}\right) \mathrm{P}\left(\mathrm{B}_{2}\right)+\mathrm{P}\left(\mathrm{A} | \mathrm{B}_{\mathrm{3}}\right) \mathrm{P}\left(\mathrm{PB}_{\mathrm{3}}\right) \end{aligned}\\=\sum_{i=1}^{3} P\left(B_{i}\right) \mathrm{P}\left(\mathrm{A} | B_{i}\right) P(A)=P(AB1)+P(AB2)+P(AB3)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+P(A∣B3)P(PB3)=i=1∑3P(Bi)P(A∣Bi)
P ( A ) = 0.45 ∗ 1 / 5 + 0.35 ∗ 1 / 4 + 0.25 ∗ 1 / 2 = 0.3025 P(A)=0.45*1/5+0.35*1/4+0.25*1/2=0.3025 P(A)=0.45∗1/5+0.35∗1/4+0.25∗1/2=0.3025 - 然后是求出拿出的白球原本是在b1盒子里的概率,这个问题其实就是一个运用到贝叶斯公式的问题。
贝叶斯(Bayes)公式
从上面的例子可以看出,全概率公式中从一个样本的划分中求取出一个球是白球的概率的过程是一个由因求果的概率问题,P(
B
i
B_i
Bi)是根据以往的经验和信息得到的,称之为先验概率,而被贝叶斯公式是执因溯果的概率问题,是在结果A已经发生的情况下,寻求A发生的原因,公式中的P(
B
i
∣
A
B_i|A
Bi∣A)是得到结果后求出的,称之为后验概率。
在上面的例子中即取出的求原本在
b
i
b_i
bi个盒子中的概率是先验概率;而最终要求得拿出的白球是在b1箱子里的概率是后验概率。很明显拿出的球是白球是果,要寻找它在原本属于哪个盒子的概率是因。
贝叶斯公式:
P
(
B
i
∣
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)}
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
在运用贝叶斯公式时,一般已知和未知条件为:
- B的多种情况中到底哪种情况发生了是未知的,但是每种情况发生的概率已知,即 P ( B i ) ; P(B_i); P(Bi);
- 事件A是已经发生的确定事实,且每种B发生条件下A发生的概率已知,即
P
(
A
∣
B
i
)
;
P(A|B_i);
P(A∣Bi);
P(A)未知,需要使用全概率公式计算得到; - 求解的目标是用B的某种情况Bi的无条件概率求其在A发生的条件下的有条件概率 P ( B i ∣ A ) P(B_i|A) P(Bi∣A)
可由全概率公式和条件概率公式推导过程:
因为,条件概率及乘法原理:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
,
\mathrm{P}(\mathrm{A} | \mathrm{B})=\frac{\mathrm{P}(\mathrm{AB})} {\mathrm{P}(\mathrm{B})},
P(A∣B)=P(B)P(AB),
所以:
P
(
B
i
∣
A
)
=
P
(
B
i
A
)
P
(
A
)
,
其
中
,
P
(
B
i
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
P(B_i|A)=\frac{P(B_iA)}{P(A)}, 其中,P(B_iA)=P(B_i)P(A|B_i)
P(Bi∣A)=P(A)P(BiA), 其中,P(BiA)=P(Bi)P(A∣Bi)
又:
P
(
A
)
=
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
P(A)=\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)
P(A)=∑j=1nP(Bj)P(A∣Bj)
所以:
P
(
B
i
∣
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)}
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
以上就是贝叶斯公式的推导过程。
则求出拿出的白球是在b1盒子中的概率是:
P
(
B
1
∣
A
)
=
P
(
B
1
)
P
(
A
∣
B
1
)
P
(
A
)
=
0.45
∗
1
/
5
0.3025
≈
0.2975
P(B_1|A)=\frac{P(B_1)P(A|B_1)}{P(A)}=\frac{0.45*1/5}{0.3025}\approx0.2975
P(B1∣A)=P(A)P(B1)P(A∣B1)=0.30250.45∗1/5≈0.2975
贝叶斯分类(机器学习相关)
- 从贝叶斯公式中我们可以看出机器学习中贝叶斯分类的一些知识
还是利用上面的取球的例子:
例子中的箱子中装球可以看做是一个训练集,而三个盒子可以看作是分类问题中的三个类别,黑白表示样本的属性,一个分类问题有诞生了,即我们手中获得的白球是属于哪一个类,此时就是求出这个白球属于哪个类的概率最大,则模型就会将该样例判定为该类。详细的贝叶斯分类将会在后续讲到。
贝叶斯公式与逻辑回归相关
假设一个二分类问题,猜A球在
B
1
,
B
2
B_1,B_2
B1,B2哪个箱子里:
P
(
B
1
∣
A
)
=
P
(
B
1
)
P
(
A
∣
B
1
)
P
(
B
1
)
P
(
A
∣
B
1
)
+
P
(
B
2
)
P
(
A
∣
B
2
)
P\left(B_{1} | A\right)=\frac{P\left(B_{1}\right) P\left(A | B_{1}\right)}{P\left(B_{1}\right) P\left(A | B_{1}\right)+P(B_2)P(A|B_2)}
P(B1∣A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)P(B1)P(A∣B1)
将分子化为1:
P
(
B
1
∣
A
)
=
1
1
+
P
(
B
2
)
P
(
A
∣
B
2
)
P
(
B
1
)
P
(
A
∣
B
1
)
P(B_1|A)=\frac{1}{1+\frac{P(B_2)P(A|B_2)}{P(B_1)P(A|B_1)}}
P(B1∣A)=1+P(B1)P(A∣B1)P(B2)P(A∣B2)1
令
z
=
l
n
P
(
B
1
)
P
(
A
∣
B
1
)
P
(
B
2
)
P
(
A
∣
B
2
)
z=ln\frac{P(B_1)P(A|B_1)}{P(B_2)P(A|B_2)}
z=lnP(B2)P(A∣B2)P(B1)P(A∣B1),则:
P
(
B
1
∣
A
)
=
1
1
+
e
(
−
z
)
=
σ
(
z
)
P(B_1|A)=\frac{1}{1+e^{(-z)}}=\sigma(z)
P(B1∣A)=1+e(−z)1=σ(z)
其中
z
z
z经过数学换算可以得到
w
T
x
+
b
w^Tx+b
wTx+b的形式,所以就可以得到逻辑回归中的
s
i
g
m
o
i
d
sigmoid
sigmoid函数了即
P
(
B
1
∣
A
)
=
1
1
+
e
(
−
z
)
=
σ
(
w
T
x
+
b
)
P(B_1|A)=\frac{1}{1+e(-z)}=\sigma(w^Tx+b)
P(B1∣A)=1+e(−z)1=σ(wTx+b)。