朴素贝叶斯
概念直观理解:
验证每一个类别中,样本特征的分布情况,根据新样本中特征的分布情况预测属于每一个类别的概率,输出概率最大的类别,我们就认为这个样本属于这个类别。
案列:早起咱们的Yahoo做垃圾邮件的分类,就使用的是咱们的朴素贝叶斯
几个比较常见的概率基础知识:
条件概率是指事件A在事件B发生的条件下发生的概率
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A | B)=\frac{P(A B)}{P(B)}
P(A∣B)=P(B)P(AB)
联合概率是指包含多个条件,且所有条件同时成立的概率 P(AB) 或者P(A,B),或者P(A∩B)
乘法公式:
由条件概率公式得:
P(AB)=P(A|B)P(B)=P(B|A)P(A)
乘法公式的推广:对于任何正整数n≥2,当P(A1A2…An-1) > 0 时,有:
P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)
全概率公式
设 B1,B2,…是样本空间Ω的一个划分(完备事件组),A为任一事件,则:
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
A
∣
B
i
)
P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right)
P(A)=i=1∑∞P(Bi)P(A∣Bi)
朴素贝叶斯
朴素贝叶斯的独立性假设,只适用于特征之间,而不能说特征与咱们的目标之间也是独立的
设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
P
(
B
i
∣
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)}
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
其实咱们的朴素贝叶斯公式是由以上三个公式总结得来
弄清楚笔记本里面的关于文本分类的朴素贝叶斯公式的推导
算法总结:
优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类
- 分类精确度高,速度快
缺点:
- 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好(结合咱们的词语之间是有上下文关系的去考虑)