分类算法-朴素贝叶斯

一.数据集介绍

20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类.。

在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器

(如sklearn.feature_extraction.text.CountVectorizer)自定义参数提取特征的原始文本序列;第二种是sklearn.datasets.fetch_20newsgroups_vectorized,返回一个已提取特征的文本序列,即不需要使用特征提取器。

二.数据集的下载

sklearn.datasets.fetch_20newsgroups从互联网下载太慢,离线下载解决办法;

1.下载地址:https://ndownloader.figshare.com/files/5975967

2.复制到:C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下(文件目录不存在,则自己创建)

3.去python的安装目录修改配置文件:

二.数据集的下载二.数据集的下载三.朴素贝叶斯算法代码

    P(y|x)是后验概率,一般是我们求解的目标。
    P(x|y)是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
    P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
    P(x)其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值