概念
朴素贝叶斯,在贝叶斯公式的基础之上,假设各个特征之间相互独立。
回顾一下贝叶斯公式,使用类别和特征进行描述:
P(类别|特征)=P(特征|类别)⋅P(类别)P(特征)
P
(
类
别
|
特
征
)
=
P
(
特
征
|
类
别
)
⋅
P
(
类
别
)
P
(
特
征
)
那么各个特征之间相互独立会发生什么事呢?
举个栗子,现在类别具体为:考上研究生,特征有:聪明、努力、运气好三种。
那么根据贝叶斯法则:
P(考上研究生|聪明,努力,运气好)=P(聪明,努力,运气好|考上研究生)⋅P(考上研究生)P(聪明,努力,运气好)
P
(
考
上
研
究
生
|
聪
明
,
努
力
,
运
气
好
)
=
P
(
聪
明
,
努
力
,
运
气
好
|
考
上
研
究
生
)
⋅
P
(
考
上
研
究
生
)
P
(
聪
明
,
努
力
,
运
气
好
)
而独立法则告诉我们,当A和B相互独立的时候,有 P(A,B) = P(A)P(B),所以有:
上式=P(聪明|考上研究生)⋅P(努力|考上研究生)⋅P(运气好|考上研究生)⋅P(考上研究生)P(聪明)P(努力)P(运气好)
上
式
=
P
(
聪
明
|
考
上
研
究
生
)
⋅
P
(
努
力
|
考
上
研
究
生
)
⋅
P
(
运
气
好
|
考
上
研
究
生
)
⋅
P
(
考
上
研
究
生
)
P
(
聪
明
)
P
(
努
力
)
P
(
运
气
好
)
可见根据朴素贝叶斯可以最简单的进行一次分类。
PS:下面这个公式在相互独立的情况下一定成立嘛?
P(聪明,努力,运气好|考上研究生)=P(聪明|考上研究生)⋅P(努力|考上研究生)⋅P(运气好|考上研究生)
P
(
聪
明
,
努
力
,
运
气
好
|
考
上
研
究
生
)
=
P
(
聪
明
|
考
上
研
究
生
)
⋅
P
(
努
力
|
考
上
研
究
生
)
⋅
P
(
运
气
好
|
考
上
研
究
生
)
略微进行数学运算即可得到答案,假设A、B、C互相独立。
P(A,B,C|D)=P(A,B,C,D)P(D)=P(A,D)P(B,D)P(C,D)P(D)
P
(
A
,
B
,
C
|
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
D
)
=
P
(
A
,
D
)
P
(
B
,
D
)
P
(
C
,
D
)
P
(
D
)
局限性
朴素贝叶斯主要好处在于算法逻辑简单,易于实现,时空开销小。
但是缺点也是显而易见,因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。