预备知识
联合概率:包含多个条件,所有条件同时成立概率P(A,B)=P(A)P(B)
条件概率:事件A发生在事件B发生的条件之下的概率。所有的特征值无关的时候才能适用条件概率
朴素贝叶斯的前提是:
特征条件独立,哈哈,这也是她被叫做朴素的原因,因为特征之间很难独立是自然条件下的情况,所以很朴素。。。
朴素贝叶斯算法大多被用在文本分类,关于文本分类的特征抽取看这个
理论基础
w是给定文档的特征值,c是文档分类
p(科技|F1,F2,F3)在词123出现的条件下是科技文章的概率=p(F1,F2,F3|科技)科技文章出现词123的概率*p(科技)科技文章的概率/p(F1,F2,F3)词123出现的概率
p(F1,F2,F3|科技)科技文章出现词123的概率=在科技文章中词123出现次数除所有词出现次数
p(科技)~科技文章的概率=科技文章出现次数/所有文章数
p(F1,F2,F3)词123出现的概率=在所有文章中词123出现次数除所有词出现次数
获取新闻20年数据
如何获取流行数据集和划分数据集看这
算法流程就是
划分数据集,训练数据集,得出准确率
关于精确率和召回率是度量分类算法的一种衡量标准,后面的文章中会详细说。最后的结果如下,如果想要完整代码可以私信
可以看得出贝叶斯算法的准确率很高,对了应该叫朴素贝叶斯,毕竟这个算法应用的大前提是错误的。