一、朴素贝叶斯算法原理
1、联合概率、条件概率与相互独立
·联合概率:包含多个条件,且所有事件同时成立的概率
。记作:P(A,B)
。例如:P(程序员,体型匀称),P(程序员,超重,喜欢)
·条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率
。记作:P(A|B)
。例如:P(程序员|男生),P(程序员,体重标准|女性)
·相互独立:如果P(A,B)=P(A)P(B),则称事件A与事件B相互独立。
2、贝叶斯公式:P(C|W) = [ P(W|C)*P© ] / P(W)
注:w为给定文档的特征值(频数统计,预测文档提供),c为文档类别
转化一下:P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)
简单理解一下:在已知特征信息X1,X2,...的条件下,事件Y发生的概率,
等于在事件Y发生的条件下这些特征信息的联合概率(所有特征信息都成立的概率),
乘以在这个样本中事件Y发生的概率,再去除以在整个样本中这些特征信息的联合概率。
3、朴素贝叶斯算法原理
朴素 + 贝叶斯
朴素: 假设特征信息X1,X2,…之间是相互独立的。即P(X1,X2,…)=P(X1) * P(X2)*…
贝叶斯:P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)
朴素贝叶斯:P(Y|X1,X2,…)=P(X1,X2,…|Y)* P(Y) / P(X1,X2,…) = P(X1|Y)* P(X2|Y)…P(Xn|Y) * P(Y) / P(X1)P(X2)…P(Xn)
简单理解一下:在已知相互独立的特征信息X1,X2,...的条件下,事件Y发生的概率,
等于在时间Y发生的条件下每个独立特征信息发生的概率乘积,
乘以在这个样本中事件Y发生的概率,
再去除以在整个样本中这些特征信息的联合概率(这些特征信息发生的概率乘积)。
应用场景:如文本分类(关键词之间是相互独立的),垃圾邮件的分类,信用评估,钓鱼网站检测等等
优缺点:优点对缺失值不敏感。缺点特征变量(特征值,特征信息)间需要相互独立。
4、防止计算出的分类概率为0
不管是贝叶斯公式还是朴素贝叶斯公式,我们发现都是概率的乘法和除法,所以一旦有某个概率为0,就会导致结果概率为0的错误结果。
所以在实际的算法中我们需要引入拉普拉斯平滑系数,解决这一问题。
拉普拉斯平滑系数 :p(Fi|C)=(Ni+alpha)/(N+alpha*m)
alpha是指定的系数一般是1,m是训练文档中统计出来的特征词的个数。
5、案例说明
6、pyhon的朴素贝叶斯API
sklearn.naive_bayes.MultinomialNB(alpha=1.0) #朴素贝叶斯分类
ealpha:拉普拉斯平滑系数
7、算法代码实现
# 1 获取数据----对新闻分类
from sklearn.datasets import fetch_20newsgroups
news