(1)全概率公式
如果事件组 B 1 , B 2 , … B_1,B_2,\dots B1,B2,…满足:
- B 1 , B 2 , … B_1,B_2,\dots B1,B2,…两两互斥,即 B i ∩ B j = ∅ B_i ∩ B_j = \emptyset Bi∩Bj=∅ , i ≠ j i≠j i̸=j, i , j = 1 , 2 , … i,j=1,2,\dots i,j=1,2,…,且 P ( B i ) > 0 , i = 1 , 2 , … P(B_i)>0,i=1,2,\dots P(Bi)>0,i=1,2,…
- B 1 ∪ B 2 ∪ ⋯ = Ω B_1∪B_2∪\dots=Ω B1∪B2∪⋯=Ω ,则称事件组 B 1 , B 2 , … B_1,B_2,\dots B1,B2,…是样本空间 Ω Ω Ω的一个划分
设
B
1
,
B
2
,
…
B_1,B_2,\dots
B1,B2,…是样本空间
Ω
Ω
Ω的一个划分,
A
A
A为任一事件,则:
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
A
∣
B
i
)
P(A)=\sum\limits_{i=1}^\infty P(B_i)P(A|B_i)
P(A)=i=1∑∞P(Bi)P(A∣Bi)
该式即为全概率公式。
(2)贝叶斯公式
与全概率公式解决的问题相反,贝叶斯公式建立在条件概率的基础上寻找事件发生的原因(即大事件
A
A
A已经发生的条件下,分割中的小事件
B
i
B_i
Bi的概率),设
B
1
,
B
2
,
…
B_1,B_2,\dots
B1,B2,…是样本空间
Ω
Ω
Ω的一个划分,则对任一事件
A
(
P
(
A
)
>
0
)
A(P(A)>0)
A(P(A)>0),有
P
(
B
i
∣
A
)
=
P
(
B
i
,
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_i|A) = \dfrac{P(B_i,A)}{P(A)} = \dfrac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)}
P(Bi∣A)=P(A)P(Bi,A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
上式为贝叶斯公式。
B
i
B_i
Bi 常被视为导致试验结果
A
A
A发生的”原因“,
P
(
B
i
)
(
i
=
1
,
2
,
…
 
)
P(B_i)(i=1,2,\dots)
P(Bi)(i=1,2,…)表示各种原因发生的可能性大小,故称先验概率;
P
(
B
i
∣
A
)
(
i
=
1
,
2
,
…
 
)
P(B_i|A)(i=1,2,\dots)
P(Bi∣A)(i=1,2,…)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。
(3)分类任务表达式
贝叶斯公式可以转为分类任务表达式:
P
(
类
别
i
∣
特
征
j
=
1
,
2
,
…
)
=
P
(
特
征
j
=
1
,
2
,
…
∣
类
别
i
)
P
(
类
别
i
)
P
(
特
征
j
=
1
,
2
,
…
)
P(类别_i|特征_{j=1,2,\dots})=\dfrac{P(特征_{j=1,2,\dots}|类别_i)P(类别_i)}{P(特征_{j=1,2,\dots})}
P(类别i∣特征j=1,2,…)=P(特征j=1,2,…)P(特征j=1,2,…∣类别i)P(类别i)
(4)朴素贝叶斯
朴素贝叶斯对条件概率分布作了条件独立性假设,具体的,条件独立性假设是:
P
(
X
=
x
∣
Y
=
c
k
)
=
P
(
X
(
1
)
=
x
(
1
)
,
X
(
2
)
=
x
(
2
)
,
…
,
X
(
n
)
=
x
(
n
)
∣
Y
=
c
k
)
=
∏
j
=
1
n
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
\begin{aligned} P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\dots,X^{(n)}=x^{(n)}|Y=c_k) \\ &=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}
P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),…,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
结合后验概率根据贝叶斯定理得:
P
(
Y
=
c
k
∣
X
=
x
)
=
P
(
X
=
x
∣
Y
=
c
k
)
P
(
Y
=
c
k
)
P
(
X
=
x
)
=
P
(
X
=
x
∣
Y
=
c
k
)
P
(
Y
=
c
k
)
∑
k
P
(
X
=
x
∣
Y
=
c
k
)
P
(
Y
=
c
k
)
\begin{aligned} P(Y=c_k|X=x) &= \dfrac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}\\ &=\dfrac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} \end{aligned}
P(Y=ck∣X=x)=P(X=x)P(X=x∣Y=ck)P(Y=ck)=∑kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)P(Y=ck)
两式结合,得朴素贝叶斯得基本公式:
P
(
Y
=
c
k
∣
X
=
x
)
=
P
(
Y
=
c
k
)
∏
j
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
∑
k
P
(
Y
=
c
k
)
∏
j
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
,
k
=
1
,
2
,
…
,
K
P(Y=c_k|X=x) = \dfrac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k) \prod_jP(X^{(j)}=x^{(j)}|Y=c_k)},k=1,2,\dots,K
P(Y=ck∣X=x)=∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)P(Y=ck)∏jP(X(j)=x(j)∣Y=ck),k=1,2,…,K
因为分母对于
c
k
c_k
ck都是相同得,于是,朴素贝叶斯分类器表示为
y
=
f
(
x
)
=
arg
max
c
k
P
(
Y
=
c
k
)
∏
j
P
(
X
(
j
)
=
x
(
j
)
∣
Y
=
c
k
)
y=f(x)=\mathop{\arg\max}\limits_{c_k} P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)
y=f(x)=ckargmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)