存储形式以map的形式将预料分词去除停顿词,预料下载地址:http://www.sogou.com/labs/dl/c.html
朴素贝叶斯实现文本分类
后验概率=类条件概率*先验概率
类条件概率计算公式
P(tk|c)=(类C下单词tk在各个类C文档下出现的次数之和+1)/(类C下的单词总数+训练样本中包含的单词次数)*放大因子
先验概率计算公式:
P(c)=类C下的单词总数/训练样本的单词总数
存储形式以map的形式将预料分词去除停顿词,预料下载地址:http://www.sogou.com/labs/dl/c.html
朴素贝叶斯实现文本分类
后验概率=类条件概率*先验概率
类条件概率计算公式
P(tk|c)=(类C下单词tk在各个类C文档下出现的次数之和+1)/(类C下的单词总数+训练样本中包含的单词次数)*放大因子
先验概率计算公式:
P(c)=类C下的单词总数/训练样本的单词总数