1 联合概率与条件概率
联合概率:包含多个条件,且条件同时成立的概率
P(A,B) = P(A)P(B)
条件概率:事件A在另外一个事件B已经发生的条件下发生概率
P(A|B)
特性
P(A1,A2|B) = P(A1|B)*P(A2|B)
2 朴素贝叶斯公式
P(C|W) = P(W|C)P(C)/P(W)
C是指文档的类别
W为给定文章的特征值
P(C|F1,F2,F3........) = P(F1,F2,F3|C)P(C)/P(F1,F2,F3.......)
P(C)是指每个文档类别的概率(文档的类别/总文档数)
P(F1,F2,F3|C) = 在给定的类别情况下,特征出现的概率
P(F1,F2,F3.......)预测文档中每一个词的概率
p(影院,支付宝,云计算|科技)*P(科技)=0.0045
p(影院,支付宝,云计算|娱乐)*P(娱乐)=0
3 拉普拉斯平滑系数
出现的原因:
在进行词频统计的时候,可能会出现多个词语出现次数为0的情况,算出来的该楼层可能为0,但是是不合理的
a为指定的系数,一般为1,m为特征词出现的个数
4 优缺点
由古典的数学理论,所以有稳定的分类效率
分类准确率较高,速度快
适用于文本分析
缺点:
建立在样本属性相互独立的基础上,如果属性之间存在相关联的情况下,分类效果不好