P(Y|X)=P(X|Y)P(Y)P(X)
P
(
Y
|
X
)
=
P
(
X
|
Y
)
P
(
Y
)
P
(
X
)
由
P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)
P
(
Y
,
X
)
=
P
(
Y
|
X
)
P
(
X
)
=
P
(
X
|
Y
)
P
(
Y
)
推导而来,其中 P(Y) 叫做
先验概率, P(Y|X) 叫做
后验概率, P(Y,X) 叫做
联合概率。一般『先验概率』、『后验概率』是相对出现的,比如 P(Y) 与 P(Y|X) 是关于 Y 的先验概率与后验概率, P(X) 与 P(X|Y) 是关于 X 的先验概率与后验概率。
2、机器学习形式的贝叶斯公式
X 理解成“具有某特征”, Y 理解成“类别标签”。在最简单的二分类问题下,我们将 Y 理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:
P((“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)|S))=P(“我”|S)×P(“司”|S)×P(“可”|S)×P(“办理”|S)×P(“正规发票”|S)×P(“保真”|S)×P(“增值税”|S)×P(“发票”|S)×P(“点数”|S)×P(“优惠”|S)
P
(
(
“
我
”
,
“
司
”
,
“
可
”
,
“
办
理
”
,
“
正
规
发
票
”
,
“
保
真
”
,
“
增
值
税
”
,
“
发
票
”
,
“
点
数
”
,
“
优
惠
”
)
|
S
)
)
=
P
(
“
我
”
|
S
)
×
P
(
“
司
”
|
S
)
×
P
(
“
可
”
|
S
)
×
P
(
“
办
理
”
|
S
)
×
P
(
“
正
规
发
票
”
|
S
)
×
P
(
“
保
真
”
|
S
)
×
P
(
“
增
值
税
”
|
S
)
×
P
(
“
发
票
”
|
S
)
×
P
(
“
点
数
”
|
S
)
×
P
(
“
优
惠
”
|
S
)
以上是
条件独立假设;将条件独立假设代入上面两个相反事件的贝叶斯公式,有
C=P(“我”|S)P(“司”|S)P(“可”|S)P(“办理”|S)P(“正规发票”|S)×P(“保真”|S)P(“增值税”|S)P(“发票”|S)P(“点数”|S)P(“优惠”|S)P(“垃圾邮件”)
C
=
P
(
“
我
”
|
S
)
P
(
“
司
”
|
S
)
P
(
“
可
”
|
S
)
P
(
“
办
理
”
|
S
)
P
(
“
正
规
发
票
”
|
S
)
×
P
(
“
保
真
”
|
S
)
P
(
“
增
值
税
”
|
S
)
P
(
“
发
票
”
|
S
)
P
(
“
点
数
”
|
S
)
P
(
“
优
惠
”
|
S
)
P
(
“
垃
圾
邮
件
”
)
C¯¯¯¯=P(“我”|H)P(“司”|H)P(“可”|H)P(“办理”|H)P(“正规发票”|H)×P(“保真”|H)P(“增值税”|H)P(“发票”|H)P(“点数”|H)P(“优惠”|H)P(“正常邮件”)
C
¯
=
P
(
“
我
”
|
H
)
P
(
“
司
”
|
H
)
P
(
“
可
”
|
H
)
P
(
“
办
理
”
|
H
)
P
(
“
正
规
发
票
”
|
H
)
×
P
(
“
保
真
”
|
H
)
P
(
“
增
值
税
”
|
H
)
P
(
“
发
票
”
|
H
)
P
(
“
点
数
”
|
H
)
P
(
“
优
惠
”
|
H
)
P
(
“
正
常
邮
件
”
)
加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes)。在朴素贝叶斯眼里,“我司可办理正规发票”与“正规发票可办理我司”完全相同。朴素贝叶斯失去了词语之间的顺序信息。这就相当于把所有的词汇扔进到一个袋子里随便搅和,贝叶斯都认为它们一样。因此这种情况也称作词袋子模型(bag of words)。
对于二分类,我们还可以继续提高判断的速度。既然要比较 logC
l
o
g
C
和 logC¯¯¯¯
l
o
g
C
¯
的大小,那就可以直接将上下两式相减,并继续化简:
logCC¯¯¯¯=logP(“我”|S)P(“我”|H)+logP(“司”|S)P(“司”|H)+logP(“可”|S)P(“可”|H)+logP(“办理”|S)P(“办理”|H)+logP(“正规发票”|S)P(“正规发票”|H)+logP(“保真”|S)P(“保真”|H)+logP(“增值税”|S)P(“增值税”|H)+logP(“发票”|S)P(“发票”|H)+logP(“点数”|S)P(“点数”|H)+logP(“优惠”|S)P(“优惠”|H)+logP(“正常邮件”|S)P(“正常邮件”)
l
o
g
C
C
¯
=
l
o
g
P
(
“
我
”
|
S
)
P
(
“
我
”
|
H
)
+
l
o
g
P
(
“
司
”
|
S
)
P
(
“
司
”
|
H
)
+
l
o
g
P
(
“
可
”
|
S
)
P
(
“
可
”
|
H
)
+
l
o
g
P
(
“
办
理
”
|
S
)
P
(
“
办
理
”
|
H
)
+
l
o
g
P
(
“
正
规
发
票
”
|
S
)
P
(
“
正
规
发
票
”
|
H
)
+
l
o
g
P
(
“
保
真
”
|
S
)
P
(
“
保
真
”
|
H
)
+
l
o
g
P
(
“
增
值
税
”
|
S
)
P
(
“
增
值
税
”
|
H
)
+
l
o
g
P
(
“
发
票
”
|
S
)
P
(
“
发
票
”
|
H
)
+
l
o
g
P
(
“
点
数
”
|
S
)
P
(
“
点
数
”
|
H
)
+
l
o
g
P
(
“
优
惠
”
|
S
)
P
(
“
优
惠
”
|
H
)
+
l
o
g
P
(
“
正
常
邮
件
”
|
S
)
P
(
“
正
常
邮
件
”
)
logCC¯¯¯¯
l
o
g
C
C
¯
如果大于0则属于垃圾邮件。我们可以把其中每一项作为其对应词语的权重,比如
logP(“发票”|S)P(“发票”|H)
l
o
g
P
(
“
发
票
”
|
S
)
P
(
“
发
票
”
|
H
)
就可以作为词语“发票”的权重,权重越大就越说明“发票”更可能是与“垃圾邮件”相关的特征。这样可以根据权重的大小来评估和筛选显著的特征,比如关键词。而这些权重值可以直接提前计算好而存在hash表中 。判断的时候直接将权重求和即可。