一、贝叶斯公式
p
(
y
∣
x
)
=
p
(
x
∣
y
)
∗
p
(
y
)
p
(
x
)
p(y|x) = \frac{p(x|y) * p(y)}{p(x)}
p(y∣x)=p(x)p(x∣y)∗p(y)
其实它是由联合概率公式推导出来的:
P
(
Y
,
X
)
=
P
(
Y
∣
X
)
P
(
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P(Y,X) = P(Y|X)P(X) = P(X|Y)P(Y)
P(Y,X)=P(Y∣X)P(X)=P(X∣Y)P(Y)
其中P(Y)叫做先验概率,P(Y|X)叫做后验概率。
二、 条件独立假设
在计算
p
(
f
e
a
t
u
r
e
s
∣
c
l
a
s
s
)
=
p
(
f
0
,
f
1
,
…
,
f
n
∣
c
)
p(features|class)=p(f0,f1,…,fn|c)
p(features∣class)=p(f0,f1,…,fn∣c)的概率时,features的维度可能很多,拿三个维度举例:
p
(
f
0
,
f
1
,
f
2
∣
c
)
=
p
(
f
0
∣
c
)
p
(
f
1
∣
f
0
,
c
)
p
(
f
2
∣
f
1
,
f
0
,
c
)
p(f0,f1,f2|c)=p(f0|c)p(f1|f0,c)p(f2|f1,f0,c)
p(f0,f1,f2∣c)=p(f0∣c)p(f1∣f0,c)p(f2∣f1,f0,c)
在特征特别多的情况下,链式计算时复杂度高,并且在累乘计算时得到的值很容易underflow(数据下溢)。
这时就加了一个假设: 特征之间是相互独立的,这时就得到了
p
(
f
0
,
f
1
,
f
2
∣
c
)
=
p
(
f
0
∣
c
)
p
(
f
1
∣
c
)
p
(
f
2
∣
c
)
p(f0,f1,f2|c)=p(f0|c)p(f1|c)p(f2|c)
p(f0,f1,f2∣c)=p(f0∣c)p(f1∣c)p(f2∣c)
三、贝叶斯分类器
在实际计算中我们对每个类别计算一个概率 p(ci) ,然后再计算所有特征的条件概率 p(fj|ci) ,那么分类的时候我们就是依据贝叶斯找一个最可能的类别:
p
(
c
l
a
s
s
i
∣
f
0
,
f
1
,
…
,
f
n
)
=
p
(
c
l
a
s
s
i
)
p
(
f
0
,
f
1
,
…
,
f
n
)
Π
j
n
p
(
f
j
∣
c
i
)
p(class_i|{f_0, f_1, \ldots, f_n})= \frac{p(class_i)}{p({f_0, f_1, \ldots, f_n})} \Pi^n_j p(f_j|c_i)
p(classi∣f0,f1,…,fn)=p(f0,f1,…,fn)p(classi)Πjnp(fj∣ci)
待完善。。。