朴素贝叶斯 :
适用于 文本分类,垃圾邮件识别等
思想:计算出 预测样本属于 , 每一种类别分别的概率,然后取概率最大的类别 作为预测类别
朴素贝叶斯公式
C:代表类别class,例如科技类
W:预测文档提取出的关键词 w1```````wn
P(属于科技概率|预测文档的特征值)
=[ p(出现预测文档多个特征值的概率|科技类文档条件下)p(科技类文章占全部文档的概率) ] / p(预测文档出现这些特征值的概率)
=【p(出现预测文档特征值词语1的概率|科技类文档的条件下) p(出现预测文档特征值词语2的概率|科技类文档的条件下)*……… p(特征值词语n的概率|科技类文档的条件下)】*p(科技类文章占全部文档的概率) / p(预测文档出现这些特征值的概率)