朴素贝叶斯(Naive Bayes )概述:
其为基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单
数学知识要求:
先验概率、后验概率、条件概率、贝叶斯公式、条件独立假设(准备充分的话可以考虑多学1个全概率公式)
联合概率举列子:
P(年龄,收入,婚姻|买) = P(年龄|买) * P(收入|买)*P(婚姻|买)
拉普拉斯平滑系数:
- 解决问题: 某些特征的概率P为0的情况,无论是在全文检索中某个字出现的概率,还是在垃圾邮件分类中,这种情况明显是不太合理的。
- 理论假设:假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题
- 举例:假设在文本分类中,有3个类:C1、C2、C3。在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10。则对应K1的概率为0,0.99,0.01。于是对这三个量使用拉普拉斯平滑的计算方法如下:1/1003 = 0.001,991/1003=0.988,11/1003=0.011
- 总结:分子加一,分母加K,K代表类别数目。