朴素贝叶斯与应用
**
一、朴素贝叶斯理论
**
在有一堆样本(特征和类别)的时候,可以通过统计得到p(特征|类别);
对于公式:
p(x)p(y|x)=p(y)p(x|y)
p
(
x
)
p
(
y
|
x
)
=
p
(
y
)
p
(
x
|
y
)
则:
p(特征)p(类别|特征)=p(类别)p(特征|类别)
p
(
特
征
)
p
(
类
别
|
特
征
)
=
p
(
类
别
)
p
(
特
征
|
类
别
)
p(类别|特征)=p(类别)p(特征|类别)/p(特征)
p
(
类
别
|
特
征
)
=
p
(
类
别
)
p
(
特
征
|
类
别
)
/
p
(
特
征
)
二、独立假设
实际上,特征可能有很多维:
p(features|class)=p(f0,f1,f2,...,fn|c)
p
(
f
e
a
t
u
r
e
s
|
c
l
a
s
s
)
=
p
(
f
0
,
f
1
,
f
2
,
.
.
.
,
f
n
|
c
)
当为二维是。可以简单的写成:
p(f0,f1|c)=p(f1|c,f0)p(f0|c))
p
(
f
0
,
f
1
|
c
)
=
p
(
f
1
|
c
,
f
0
)
p
(
f
0
|
c
)
)
假设特征值之间相互独立,则:
p(f0,f1|c)=p(f1|c)p(f0|c))
p
(
f
0
,
f
1
|
c
)
=
p
(
f
1
|
c
)
p
(
f
0
|
c
)
)
得到:
p(f0,f1,f2,...,fn|c)=∏nip(fi|c)
p
(
f
0
,
f
1
,
f
2
,
.
.
.
,
f
n
|
c
)
=
∏
n
i
p
(
f
i
|
c
)
三、贝叶斯分类器
对每个类别计算一个概率
p(ci)
p
(
c
i
)
,然后再计算所有特征的条件概率
p(f0|ci)
p
(
f
0
|
c
i
)
,根据贝叶斯找一个最可能的类别:
P(classi|f0,f1,f2,...,fn)=p(classi)/p(f0,f1,f2,...,fn)∗∏nip(fi|c)
P
(
c
l
a
s
s
i
|
f
0
,
f
1
,
f
2
,
.
.
.
,
f
n
)
=
p
(
c
l
a
s
s
i
)
/
p
(
f
0
,
f
1
,
f
2
,
.
.
.
,
f
n
)
∗
∏
n
i
p
(
f
i
|
c
)