分类算法-朴素贝叶斯

最新推荐文章于 2023-12-14 15:50:55 发布

健康平安的活着

最新推荐文章于 2023-12-14 15:50:55 发布

阅读量293

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011066470/article/details/104428298

版权

机器学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

一.数据集介绍

20 newsgroups数据集18000篇新闻文章，一共涉及到20种话题，所以称作20 newsgroups text dataset，分文两部分：训练集和测试集，通常用来做文本分类.。

在sklearn中，该模型有两种装载方式，第一种是sklearn.datasets.fetch_20newsgroups，返回一个可以被文本特征提取器

（如sklearn.feature_extraction.text.CountVectorizer）自定义参数提取特征的原始文本序列；第二种是sklearn.datasets.fetch_20newsgroups_vectorized，返回一个已提取特征的文本序列，即不需要使用特征提取器。

二.数据集的下载

sklearn.datasets.fetch_20newsgroups从互联网下载太慢，离线下载解决办法；

1.下载地址：https://ndownloader.figshare.com/files/5975967

2.复制到：C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下（文件目录不存在，则自己创建）

3.去python的安装目录修改配置文件：

二.数据集的下载二.数据集的下载三.朴素贝叶斯算法代码

P(y|x)是后验概率，一般是我们求解的目标。
    P(x|y)是条件概率，又叫似然概率，一般是通过历史数据统计得到。一般不把它叫做先验概率，但从定义上也符合先验定义。
    P(y) 是先验概率，一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
    P(x)其实也是先验概率，只是在贝叶斯的很多应用中不重要（因为只要最大后验不求绝对值），需要时往往用全概率公式计算得到。

健康平安的活着

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。