一.数据集介绍
20 newsgroups
数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset
,分文两部分:训练集和测试集,通常用来做文本分类.。
在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器
(如sklearn.feature_extraction.text.CountVectorizer)自定义参数提取特征的原始文本序列;第二种是sklearn.datasets.fetch_20newsgroups_vectorized,返回一个已提取特征的文本序列,即不需要使用特征提取器。
二.数据集的下载
sklearn.datasets.fetch_20newsgroups从互联网下载太慢,离线下载解决办法;
1.下载地址:https://ndownloader.figshare.com/files/5975967
2.复制到:C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下(文件目录不存在,则自己创建)
3.去python的安装目录修改配置文件:
二.数据集的下载二.数据集的下载三.朴素贝叶斯算法代码
P(y|x)是后验概率,一般是我们求解的目标。
P(x|y)是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(x)其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。