趁着这几天在复习数据挖掘,里面牵扯到了一些概率论里面的基础常识,我就简单介绍下有关的基础知识吧!
概率论是一门研究随机现象数量规律的学科,个体选择是有各种各样的原因,微观层面难以准确判断,但从宏观层面,群体角度会涌现出一定的规律,并且这个规律在一定时期内保持不变,概率是帮助我们找到这样规律的一种数学方法。
一. 基本概念
1. 决定性现象和不确定现象
决定性现象包括必然事件和不可能事件;必然事件是指在一定条件下,必然会发生的事情;而不可能事件是指在一定条件下,必然不会发生的事件。
而现实世界中还存在着大量的非决定性现象,比如同一个仪器多次称量同一个物体的重量,所得结果总是略有差异。这种不确定现象也称为随机现象。
2. 随机实验
正如前面所讲,个体选择有各种各样的原因,但如果重复多次实验,群体角度来讲会涌现出一定的规律,所以我们引入了随机实验,即在相同条件下重复进行某项实验,企图从中发现某种规律。随机试验的结果是未知的,它的所有可能结果的集合构成样本空间,试验的每一个可能结果称为样本点,即为 S = { e } S=\left\{ e \right\} S={e} 。
3. 随机事件
试验E的样本空间S的子集称为试验的随机事件,简称事件,在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生。
事件的运算满足交换律、结合律、分配律和德-摩根定律:
举个例子,在1-2000的整数中随机地取一个数,问取到的整数即不能被6整除又不能被8整除的概率是多少?
解:设事件A代表1-2000的整数中可以被6整除的概率,事件B代表1-2000的整数中可以被8整数的概率,那么即不能被6整数又不能被8整除的事件就是
A
ˉ
B
ˉ
\bar{A}\bar{B}
AˉBˉ ,即能被6整除又能被8整除的事件就是AB,于是有:
P
(
A
ˉ
B
ˉ
)
=
P
(
A
∪
B
ˉ
)
=
1
−
P
(
A
∪
B
)
=
1
−
{
P
(
A
)
+
P
(
B
)
−
P
(
A
B
)
}
P(\bar{A}\bar{B})=P(\bar{A\cup B})=1-P(A\cup B)=1-\left \{ P(A)+P(B)-P(AB) \right \}
P(AˉBˉ)=P(A∪Bˉ)=1−P(A∪B)=1−{P(A)+P(B)−P(AB)}
又
333
<
2000
6
<
334
,
2000
8
=
250
,
83
<
2000
24
<
84
,
故
有
:
P
(
A
)
=
333
2000
,
P
(
B
)
=
250
2000
,
P
(
A
B
)
=
83
2000
又 333<\frac{2000}{6}<334,\frac{2000}{8}=250,83<\frac{2000}{24}<84,故有: P(A)=\frac{333}{2000},P(B)=\frac{250}{2000},P(AB)=\frac{83}{2000}
又333<62000<334,82000=250,83<242000<84,故有:P(A)=2000333,P(B)=2000250,P(AB)=200083
则 P ( A ˉ B ˉ ) = 1 − ( 333 2000 + 250 2000 − 83 2000 ) = 3 4 P(\bar{A}\bar{B})=1-(\frac{333}{2000}+\frac{250}{2000}-\frac{83}{2000})=\frac{3}{4} P(AˉBˉ)=1−(2000333+2000250−200083)=43
4. 概率与频率
对于一个随机事件A(除必然事件和不可能事件外 )来说,它在一次试验中可能发生,也可能不发生,我们希望知道的是事件在一次试验中发生的可能性,于是我们用一个数 P(A)来表示该事件发生的可能性大小,这个数 P(A) 就称为随机事件A的概率。那么概率如何计算呢?
这就要引入频率的概念了,在相同的条件下,进行了n次试验,在这n次试验中,事件A发生的次数
n
A
n_{A}
nA称为事件A发生的频数。比值
n
A
/
n
n_{A}/n
nA/n称为事件A发生的频率,并记为
f
n
(
A
)
f_{n}(A)
fn(A)。
频数稳定性:大量试验证实,当重复实验次数逐渐增大时,频率呈现出稳定性,逐渐稳定于某个常数,即当n足够大时,
f
n
(
A
)
≈
P
(
A
)
f_{n}(A)\approx P(A)
fn(A)≈P(A) ,即只要试验次数足够多,我们就可以用频率来估计概率值。
5. 条件概率
设A、B是两个事件,且 P ( A ) > 0 P(A)>0 P(A)>0 ,称 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB) 为在事件A发生的条件下事件B发生的条件概率。
那么现在我们来考虑一个问题,假设有n个条件 A 1 A 2 . . . A n A_{1}A_{2}...A_{n} A1A2...An 推出事件B,如何计算 P ( B ∣ A 1 A 2 . . . A n ) P(B|A_{1}A_{2}...A_{n}) P(B∣A1A2...An) ?
乘法定理:设 P ( A ) > 0 P(A)>0 P(A)>0 ,则有 P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(B∣A)P(A) ,这个式子就是乘法公式,它可以由上面条件概率的公式直接推得。同理,如果有 P ( B ) > 0 P(B)>0 P(B)>0 ,则有 P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(A∣B)P(B) ,可以将乘法定理推广到任意n个事件之交的场合:设 A 1 , A 2 , . . . , A n A_{1},A_{2},...,A_{n} A1,A2,...,An 为n个事件, n ≥ 2 n\geq 2 n≥2 且 P ( A 1 A 2 . . . A n − 1 ) > 0 P(A_{1}A_{2}...A_{n-1})>0 P(A1A2...An−1)>0 ,则有 P ( A 1 A 2 . . . A n ) = P ( A n ∣ A 1 A 2 . . . A n − 1 ) P ( A n − 1 ∣ A 1 A 2 . . . A n − 2 ) . . . P ( A 2 ∣ A 1 ) P ( A 1 ) P(A_{1}A_{2}...A_{n})=P(A_{n}|A_{1}A_{2}...A_{n-1})P(A_{n-1}|A_{1}A_{2}...A_{n-2})...P(A_{2}|A_{1})P(A_{1}) P(A1A2...An)=P(An∣A1A2...An−1)P(An−1∣A1A2...An−2)...P(A2∣A1)P(A1)
条件概率 P ( A ∣ B ) P(A|B) P(A∣B) 与积事件概率 P ( A B ) P(AB) P(AB) 的关系: P ( A B ) P(AB) P(AB)是在样本空间S内事件AB发生的概率,而 P ( A ∣ B ) P(A|B) P(A∣B)是在试验E增加了新条件B发生后的缩减样本空间 S B S_{B} SB 中计算事件A的概率。虽然都是A、B同时发生,但是两者是不相同的,有 P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(B∣A)P(A) ,仅当 P ( S ) = P ( B ) = 1 P(S)=P(B)=1 P(S)=P(B)=1 时两者相等。
6. 全概率公式
全概率公式是概率论中的一个重要公式,应用全概率公式的关键是建立样本空间的正确划分(即构造一个正确的完备事件组),然后计算各个概率和条件概率,最后代入全概率公式。它是求复杂事件概率的有力工具。
样本空间的划分定义:设S为试验E的样本空间,
B
1
,
B
2
,
.
.
.
,
B
n
B_{1},B_{2},...,B_{n}
B1,B2,...,Bn 为E的一组事件。若满足(1)
B
i
B
j
=
∅
,
i
≠
j
,
i
,
j
=
1
,
2
,
.
.
.
,
n
B_{i}B_{j}=\varnothing ,i\ne j,i,j=1,2,...,n
BiBj=∅,i̸=j,i,j=1,2,...,n;(2)
B
1
∪
B
2
∪
.
.
.
∪
B
n
=
S
B_{1}\cup B_{2} \cup ... \cup B_{n}=S
B1∪B2∪...∪Bn=S ,则称
B
1
,
B
2
,
.
.
.
,
B
n
B_{1},B_{2},...,B_{n}
B1,B2,...,Bn 为样本空间S的一组划分。
全概率公式:设试验E的样本空间为S,A为E的事件, B 1 , B 2 , . . . , B n B_{1},B_{2},...,B_{n} B1,B2,...,Bn为样本空间S的一组划分,且 P ( B i ) > 0 ( i = 1 , 2 , . . . , n ) P(B_{i})>0(i=1,2,...,n) P(Bi)>0(i=1,2,...,n) ,则 P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n}) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn) .
举个例子放松一下哈哈,考卷中一道选择题有4个答案,仅有一个是正确的,设一个学生知道正确答案或不知道而乱猜是等可能的。如果这个学生答对了,求他确实知道正确答案的概率?
解:我们将样本空间划分为事件A-知道正确答案,
A
ˉ
\bar{A}
Aˉ -不知道正确答案。以B表示学生答对题目,则
A
⊂
B
,
P
(
A
B
)
=
P
(
A
)
=
1
/
2
A\subset B,P(AB)=P(A)=1/2
A⊂B,P(AB)=P(A)=1/2 。
P
(
B
∣
A
)
=
1
P(B|A)=1
P(B∣A)=1,而
P
(
B
∣
A
ˉ
)
=
1
/
4
P(B|\bar{A})=1/4
P(B∣Aˉ)=1/4 。由全概率公式有:
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
+
P
(
B
∣
A
ˉ
)
P
(
A
ˉ
)
=
1
/
2
+
1
/
4
×
1
/
2
=
5
/
8
P(B)=P(B|A)P(A)+P(B|\bar{A})P(\bar{A})=1/2+1/4\times 1/2=5/8
P(B)=P(B∣A)P(A)+P(B∣Aˉ)P(Aˉ)=1/2+1/4×1/2=5/8
故
P
(
A
∣
B
)
=
P
(
A
B
)
/
P
(
B
)
=
1
/
2
×
8
/
5
=
4
/
5
P(A|B)=P(AB)/P(B)=1/2\times 8/5=4/5
P(A∣B)=P(AB)/P(B)=1/2×8/5=4/5
二. 贝叶斯分类
1. 贝叶斯公式
贝叶斯公式是由乘法定理演变而来的,在上面的乘法定理中我们说到
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(AB)=P(B|A)P(A)
P(AB)=P(B∣A)P(A) ,同时又有
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
P(AB)=P(A|B)P(B)
P(AB)=P(A∣B)P(B) ,从而有
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P(B|A)P(A)=P(A|B)P(B)
P(B∣A)P(A)=P(A∣B)P(B) ,这就是传说中的贝叶斯公式的基本型。
那么贝叶斯公式有什么用呢?答案是可以根据现象找出背后的原因,考虑这样一个问题,一个小区在过去的10年里一共发生了200次被盗,小区的保安有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率为0.9,现在要求在狗叫的时候发生入侵的概率是多少?
我们用事件A表示盗贼入侵的概率,即为P(A);事件B表示狗叫的概率,即为P(B);现在要求P(A|B),直接求不好求,但是如果我们用贝叶斯公式将这个问题转换一下不就变为
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
/
P
(
B
)
P(A|B)=P(B|A)P(A)/P(B)
P(A∣B)=P(B∣A)P(A)/P(B) ,而
P
(
B
∣
A
)
、
P
(
A
)
、
P
(
B
)
P(B|A)、P(A)、P(B)
P(B∣A)、P(A)、P(B)的概率是已知的。
我们对上面贝叶斯公式的基本型推广一下,得到真正意义上的贝叶斯公式:
设试验E的样本空间为S,A为E的事件,
B
1
,
B
2
,
.
.
.
,
B
n
B_{1},B_{2},...,B_{n}
B1,B2,...,Bn 为S的一组划分,且
P
(
A
)
>
0
,
P
(
B
i
)
>
0
(
i
=
1
,
2
,
.
.
.
,
n
)
P(A)>0,P(B_{i})>0(i=1,2,...,n)
P(A)>0,P(Bi)>0(i=1,2,...,n) ,则:
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{P(A)}=\frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})}
P(Bi∣A)=P(A)P(A∣Bi)P(Bi)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
再来做个题,某汽车厂的某个零件有甲乙丙三家供货商,配额分别为10%、25%和65%。已知甲乙丙三家零件的不合格率分别为30%、20%和10%。现从仓库中的某批零件中随机抽取一件,经检验该零件不合格,则这个零件来自甲乙丙的可能性各是多少?
解:用E表示“抽出的零件是不合格品”,
H
1
,
H
2
,
H
3
H_{1},H_{2},H_{3}
H1,H2,H3 分别表示这个零件来自甲、乙、丙的概率;则
P
(
H
1
)
=
0.1
,
P
(
H
2
)
=
0.25
,
P
(
H
3
)
=
0.65
P(H_{1})=0.1,P(H_{2})=0.25,P(H_{3})=0.65
P(H1)=0.1,P(H2)=0.25,P(H3)=0.65,
P
(
E
∣
H
1
)
=
0.3
,
P
(
E
∣
H
2
)
=
0.2
,
P
(
E
∣
H
3
)
=
0.1
P(E|H_{1})=0.3,P(E|H_{2})=0.2,P(E|H_{3})=0.1
P(E∣H1)=0.3,P(E∣H2)=0.2,P(E∣H3)=0.1,于是
P
(
E
)
=
P
(
E
∣
H
1
)
P
(
H
1
)
+
P
(
E
∣
H
2
)
P
(
H
2
)
+
P
(
E
∣
H
3
)
P
(
H
3
)
=
0.145
P(E)=P(E|H_{1})P(H_{1})+P(E|H_{2})P(H_{2})+P(E|H_{3})P(H_{3})=0.145
P(E)=P(E∣H1)P(H1)+P(E∣H2)P(H2)+P(E∣H3)P(H3)=0.145
P
(
H
1
∣
E
)
=
P
(
E
∣
H
1
)
P
(
H
1
)
/
P
(
E
)
=
0.1
×
0.3
/
0.145
=
0.207
P(H_{1}|E)=P(E|H_{1})P(H_{1})/P(E)=0.1\times 0.3/0.145=0.207
P(H1∣E)=P(E∣H1)P(H1)/P(E)=0.1×0.3/0.145=0.207
P
(
H
2
∣
E
)
=
P
(
E
∣
H
2
)
P
(
H
2
)
/
P
(
E
)
=
0.2
×
0.25
/
0.145
=
0.345
P(H_{2}|E)=P(E|H_{2})P(H_{2})/P(E)=0.2\times 0.25/0.145=0.345
P(H2∣E)=P(E∣H2)P(H2)/P(E)=0.2×0.25/0.145=0.345
P
(
H
3
∣
E
)
=
P
(
E
∣
H
3
)
P
(
H
3
)
/
P
(
E
)
=
0.1
×
0.65
/
0.145
=
0.448
P(H_{3}|E)=P(E|H_{3})P(H_{3})/P(E)=0.1\times 0.65/0.145=0.448
P(H3∣E)=P(E∣H3)P(H3)/P(E)=0.1×0.65/0.145=0.448
2. 贝叶斯决策
贝叶斯决策理论:在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生的概率进行修正,最后再利用期望值和修正概率做出最优决策。
说人话就是:(1)已知类条件概率密度参数表达式和先验概率;(2)利用贝叶斯公式转换为后验概率;(3)根据后验概率大小进行决策。
看一个医疗诊断的例子,C={健康,感冒,过敏},
f
1
=
打
喷
嚏
,
f
2
=
咳
嗽
,
f
3
=
发
烧
f
1
=
打
喷
嚏
,
f
2
=
咳
嗽
,
f
3
=
发
烧
f_{1}=打喷嚏,f_{2}=咳嗽,f_{3}=发烧f_{1}=打喷嚏,f_{2}=咳嗽,f_{3}=发烧
f1=打喷嚏,f2=咳嗽,f3=发烧f1=打喷嚏,f2=咳嗽,f3=发烧
现在我们已知小李症状为{打喷嚏,咳嗽,不发烧},问小李是健康、感冒还是过敏?
解:设
C
1
、
C
2
、
C
3
C_{1}、C_{2}、C_{3}
C1、C2、C3 分别表示小李是健康、感冒和过敏这三个事件;
现在要求的是
P
(
C
1
∣
f
1
f
2
f
3
ˉ
)
=
P
(
f
1
f
2
f
3
ˉ
∣
C
1
)
P
(
C
1
)
P
(
f
1
f
2
f
3
ˉ
)
P(C_{1}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})}{P(f_{1}f_{2}\bar{f_{3}})}
P(C1∣f1f2f3ˉ)=P(f1f2f3ˉ)P(f1f2f3ˉ∣C1)P(C1)和
P
(
C
2
∣
f
1
f
2
f
3
ˉ
)
=
P
(
f
1
f
2
f
3
ˉ
∣
C
2
)
P
(
C
2
)
P
(
f
1
f
2
f
3
ˉ
)
P(C_{2}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})}{P(f_{1}f_{2}\bar{f_{3}})}
P(C2∣f1f2f3ˉ)=P(f1f2f3ˉ)P(f1f2f3ˉ∣C2)P(C2)和
P
(
C
3
∣
f
1
f
2
f
3
ˉ
)
=
P
(
f
1
f
2
f
3
ˉ
∣
C
3
)
P
(
C
3
)
P
(
f
1
f
2
f
3
ˉ
)
P(C_{3}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})}{P(f_{1}f_{2}\bar{f_{3}})}
P(C3∣f1f2f3ˉ)=P(f1f2f3ˉ)P(f1f2f3ˉ∣C3)P(C3)
而
P
(
f
1
f
2
f
3
ˉ
∣
C
1
)
P
(
C
1
)
=
0.1
×
0.1
×
(
1
−
0.01
)
×
0.9
=
0.0089
P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})=0.1\times 0.1\times (1-0.01)\times 0.9=0.0089
P(f1f2f3ˉ∣C1)P(C1)=0.1×0.1×(1−0.01)×0.9=0.0089(默认了特征之间相互独立,下同)
P
(
f
1
f
2
f
3
ˉ
∣
C
2
)
P
(
C
2
)
=
0.9
×
0.8
×
(
1
−
0.7
)
×
0.05
=
0.01
P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})=0.9\times 0.8\times (1-0.7)\times 0.05=0.01
P(f1f2f3ˉ∣C2)P(C2)=0.9×0.8×(1−0.7)×0.05=0.01
P
(
f
1
f
2
f
3
ˉ
∣
C
3
)
P
(
C
3
)
=
0.9
×
0.7
×
(
1
−
0.4
)
×
0.05
=
0.019
P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})=0.9\times 0.7\times (1-0.4)\times 0.05=0.019
P(f1f2f3ˉ∣C3)P(C3)=0.9×0.7×(1−0.4)×0.05=0.019
P
(
f
1
f
2
f
3
ˉ
)
=
P
(
f
1
f
2
f
3
ˉ
∣
C
1
)
P
(
C
1
)
+
P
(
f
1
f
2
f
3
ˉ
∣
C
2
)
P
(
C
2
)
+
P
(
f
1
f
2
f
3
ˉ
∣
C
3
)
P
(
C
3
)
=
0.0379
P(f_{1}f_{2}\bar{f_{3}})=P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})+P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})+P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})=0.0379
P(f1f2f3ˉ)=P(f1f2f3ˉ∣C1)P(C1)+P(f1f2f3ˉ∣C2)P(C2)+P(f1f2f3ˉ∣C3)P(C3)=0.0379
故
P
(
C
1
∣
f
1
f
2
f
3
ˉ
)
=
0.0089
/
0.0379
=
0.23
P(C_{1}|f_{1}f_{2}\bar{f_{3}})=0.0089/0.0379=0.23
P(C1∣f1f2f3ˉ)=0.0089/0.0379=0.23 ;
P
(
C
2
∣
f
1
f
2
f
3
ˉ
)
=
0.01
/
0.0379
=
0.26
P(C_{2}|f_{1}f_{2}\bar{f_{3}})=0.01/0.0379=0.26
P(C2∣f1f2f3ˉ)=0.01/0.0379=0.26 ;
P
(
C
3
∣
f
1
f
2
f
3
ˉ
)
=
0.019
/
0.0379
=
0.50
P(C_{3}|f_{1}f_{2}\bar{f_{3}})=0.019/0.0379=0.50
P(C3∣f1f2f3ˉ)=0.019/0.0379=0.50 ,很明显过敏可能性最大。
贝叶斯决策使用条件:
(1)样本的数量(容量)不充分大,因而大子样统计理论不适宜的场合;
(2)试验具有继承性,反映在统计学上就是要具有在试验之前已有的先验信息的场合;
(3)要决策分类的条件划分数是一定的;
(4)各种条件的概率分布是已知的,即先验概率
P
(
D
i
)
P(D_{i})
P(Di) 以及各类概率密度函数
P
(
x
∣
D
i
)
P(x|D_{i})
P(x∣Di) 是已知的。显然
0
≤
P
(
D
i
)
≤
1
0\leq P(D_{i})\leq 1
0≤P(Di)≤1 且
∑
P
D
i
=
1
\sum P_{D_{i}}=1
∑PDi=1 .
我们细细体会一下,贝叶斯公式到底起到什么作用了?实质上就是一个“由果寻因”的过程。我们已知若干类别和决定类别的各种因素组合的概率,现在要根据某一中因素组合求它属于哪个类别?这不就是个分类问题嘛!!!!
3. 贝叶斯分类
独立的类别变量C有若干类别,条件依赖于若干特征变量
F
1
,
F
2
,
.
.
.
,
F
n
F_{1},F_{2},...,F_{n}
F1,F2,...,Fn 。通过贝叶斯公式计算类别C的概率:
P
(
C
∣
F
1
F
2
.
.
.
F
n
)
=
P
(
F
1
F
2
.
.
.
F
n
∣
C
)
P
(
C
)
P
(
F
1
F
2
.
.
.
F
n
)
P(C|F_{1}F_{2}...F_{n})=\frac{P(F_{1}F_{2}...F_{n}|C)P(C)}{P(F_{1}F_{2}...F_{n})}
P(C∣F1F2...Fn)=P(F1F2...Fn)P(F1F2...Fn∣C)P(C)
这里地方计算的时候有问题,当特征变量的数目n或者每个特征能取大量值时,基于概率模型求解变得很不现实,即如何求解
P
(
F
1
F
2
.
.
.
F
n
∣
C
)
P
(
C
)
P(F_{1}F_{2}...F_{n}|C)P(C)
P(F1F2...Fn∣C)P(C) :
当n比较大,
P
(
F
i
∣
C
,
F
1
,
F
2
,
.
.
.
,
F
i
−
1
)
P(F_{i}|C,F_{1},F_{2},...,F_{i-1})
P(Fi∣C,F1,F2,...,Fi−1) 很难计算,但
P
(
F
i
∣
C
)
P(F_{i}|C)
P(Fi∣C) 容易很多,那么什么情况下
P
(
F
i
∣
C
,
F
1
,
F
2
,
.
.
.
,
F
i
−
1
)
P(F_{i}|C,F_{1},F_{2},...,F_{i-1})
P(Fi∣C,F1,F2,...,Fi−1) 等于
P
(
F
i
∣
C
)
P(F_{i}|C)
P(Fi∣C) 相等呢?
奥卡姆剃刀原理——“如无必要,无增实体”,我们知道当特征
F
i
和
F
j
F_{i}和F_{j}
Fi和Fj不相关时
P
(
F
i
∣
C
,
F
j
)
=
P
(
F
i
∣
C
)
P(F_{i}|C,F_{j})=P(F_{i}|C)
P(Fi∣C,Fj)=P(Fi∣C) ,现在我们做一个重要假设:当特征变量
F
1
F
2
.
.
.
F
n
F_{1}F_{2}...F_{n}
F1F2...Fn不相关时,类别变量C发生的概率可以变换为:
4. 朴素贝叶斯分类
P
(
C
∣
F
1
,
.
.
.
,
F
n
)
=
1
Z
P
(
C
)
∏
i
=
1
m
P
(
F
i
∣
C
)
P(C|F_{1},...,F_{n})=\frac{1}{Z}P(C)\prod_{i=1}^{m}P(F_{i}|C)
P(C∣F1,...,Fn)=Z1P(C)∏i=1mP(Fi∣C)
其中
Z
=
P
(
F
1
,
F
2
,
.
.
.
,
F
n
)
Z=P(F_{1},F_{2},...,F_{n})
Z=P(F1,F2,...,Fn) 称为证据因子,当特征变量的值已知时是一个常数,
P
(
C
)
P(C)
P(C)是类先验概率,
P
(
F
i
∣
C
)
P(F_{i}|C)
P(Fi∣C) 是独立分布概率。
朴素贝叶斯算法具体介绍在我的另一篇文章里,感兴趣的可以看一下:
https://blog.csdn.net/h__ang/article/details/83783119
贝叶斯分类尽管有条件独立性这个非常强的假定,但是在实际应用中却表现出很好的性能。即使所处理的数据的属性之间不存在条件独立性时,朴素贝叶斯方法在大多数情况下仍然可以实现正确分类,它的抗干扰性能好,鲁棒性高。
三. 贝叶斯网络(Bayesian network)
贝叶斯网络,又称信任网络(belief network)或是有向非循环图形模型(directed acyclic graphical model),是一种概率图型模型,借由有向非循环图形中得知一组随机变量
{
X
1
,
X
2
,
.
.
.
,
X
n
}
\left\{ X_{1},X_{2},...,X_{n} \right\}
{X1,X2,...,Xn}及其n组条件几率分配(conditional probability distributions,or CPDs)的性质。
网络的三大要素:
–结点表示随机变量;
–边表示因果关系;
–节点的条件几率表
下面来一个简单的计算实例:
将X、Y、Z、W向量的节点都画出来,则网络如下:
P
(
y
1
∣
x
1
)
=
0.9
;
P(y_{1}|x_{1})=0.9 ;
P(y1∣x1)=0.9;
P ( z 1 ∣ x 1 ) = P ( z 1 ∣ y 1 , x 1 ) P ( y 1 ∣ x 1 ) + P ( z 1 ∣ y 2 , x 1 ) P ( y 2 ∣ x 1 ) = P ( z 1 ∣ y 1 ) P ( y 1 ∣ x 1 ) + P ( z 1 ∣ y 2 ) P ( y 2 ∣ x 1 ) = 0.7 × 0.9 + 0.4 × 0.1 = 0.67 P(z_{1}|x_{1})=P(z_{1}|y_{1},x_{1})P(y_{1}|x_{1})+P(z_{1}|y_{2},x_{1})P(y_{2}|x_{1}) =P(z_{1}|y_{1})P(y_{1}|x_{1})+P(z_{1}|y_{2})P(y_{2}|x_{1}) =0.7\times 0.9+0.4\times 0.1=0.67 P(z1∣x1)=P(z1∣y1,x1)P(y1∣x1)+P(z1∣y2,x1)P(y2∣x1)=P(z1∣y1)P(y1∣x1)+P(z1∣y2)P(y2∣x1)=0.7×0.9+0.4×0.1=0.67
P ( z 2 ∣ x 1 ) = 1 − P ( z 1 ∣ x 1 ) = 0.33 P ( z 2 ∣ x 1 ) = P ( w 1 ∣ z 1 ) P ( z 1 ∣ x 1 ) + P ( w 1 ∣ z 2 ) P ( z 2 ∣ x 1 ) = 0.5 ∗ 0.67 + 0.6 ∗ 0.33 = 0.533 P(z_{2}|x_{1})=1-P(z_{1}|x_{1})=0.33P(z_{2}|x_{1})=P(w_{1}|z_{1})P(z_{1}|x_{1})+P(w_{1}|z_{2})P(z_{2}|x_{1}) =0.5*0.67+0.6*0.33=0.533 P(z2∣x1)=1−P(z1∣x1)=0.33P(z2∣x1)=P(w1∣z1)P(z1∣x1)+P(w1∣z2)P(z2∣x1)=0.5∗0.67+0.6∗0.33=0.533
P
(
y
1
)
=
P
(
y
1
∣
x
1
)
P
(
x
1
)
+
P
(
y
1
∣
x
2
)
P
(
x
2
)
=
0.84
P(y_{1})=P(y_{1}|x_{1})P(x_{1})+P(y_{1}|x_{2})P(x_{2})=0.84
P(y1)=P(y1∣x1)P(x1)+P(y1∣x2)P(x2)=0.84
P
(
y
2
)
=
1
−
P
(
y
1
)
=
0.16
P(y_{2})=1-P(y_{1})=0.16
P(y2)=1−P(y1)=0.16
P
(
z
1
)
=
P
(
z
1
∣
y
1
)
P
(
y
1
)
+
P
(
z
1
∣
y
2
)
P
(
y
2
)
=
0.652
P(z_{1})=P(z_{1}|y_{1})P(y_{1})+P(z_{1}|y_{2})P(y_{2})=0.652
P(z1)=P(z1∣y1)P(y1)+P(z1∣y2)P(y2)=0.652
P
(
z
2
)
=
1
−
P
(
z
1
)
=
0.348
P(z_{2})=1-P(z_{1})=0.348
P(z2)=1−P(z1)=0.348
P
(
w
1
)
=
P
(
w
1
∣
z
1
)
P
(
z
1
)
+
P
(
w
1
∣
z
2
)
P
(
z
2
)
=
0.5348
P(w_{1})=P(w_{1}|z_{1})P(z_{1})+P(w_{1}|z_{2})P(z_{2})=0.5348
P(w1)=P(w1∣z1)P(z1)+P(w1∣z2)P(z2)=0.5348
P
(
x
1
∣
w
1
)
=
P
(
w
1
∣
x
1
)
P
(
x
1
)
P
w
1
=
0.533
∗
0.4
/
0.5348
=
0.3987
P(x_{1}|w_{1})=\frac{P(w_{1}|x_{1})P(x_{1})}{P_{w_{1}}}=0.533*0.4/0.5348=0.3987
P(x1∣w1)=Pw1P(w1∣x1)P(x1)=0.533∗0.4/0.5348=0.3987
贝叶斯网络与朴素贝叶斯:
朴素贝叶斯可以看成是一个简单的贝叶斯网络:
写在最后,比较重要的是我想谈谈贝叶斯统计(MAP)和极大似然估计(MLE)的区别与联系,但是我在知乎上搜了下这方面的介绍挺多的,我就在这里推荐几个吧!
关于对贝叶斯统计的相关介绍可以参考我之前写的这篇文章的第一小节:
https://blog.csdn.net/h__ang/article/details/83870064
关于极大似然估计的相关理解可以参加微调的这篇回答,个人感觉很强!!:
https://www.zhihu.com/question/24124998/answer/707507256
关于极大似然估计和贝叶斯统计的区别其实我上面那篇文章已经点出来了,如果还是不太理解,更直观的理解在这里:
https://blog.csdn.net/u011508640/article/details/72815981