朴素贝叶斯算法
概率基础
-
联合概率
- 定义:包含多个条件,且所有条件同时成立的概率。
- 记作:P(A,B)
- P(A,B) = P(A)P(B)
-
条件概率
- 定义:就是事件A在另外一个事件B已经发生条件下的发生概率
- 记作:P(A|B)
- P(A1,A2|B) = P(A1|B)P(A2|B)
- 注意:此条件概率的成立,是由于A1,A2相互独立的结果
-
朴素贝叶斯算法要求各个特征之间相互独立
贝叶斯公式
拉普拉斯平滑
- 由于可能存在为0的类别,所以使用拉普拉斯平滑系数
- alpha
sklearn朴素贝叶斯算法API
sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
- alpha不会对结果产生影响
朴素贝叶斯分类的优缺点
- 优点
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
- 对缺失值不太敏感,算法比较简单,常用于文本分类。
- 分类准确度高,速度快
- 缺点
- 由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好
- 是在训练集中进行统计词这些工作会对结果造成干扰。
- 一般只适用于文本分类