Python+sklearn练习朴素贝叶斯算法

最新推荐文章于 2024-07-15 15:40:17 发布

Keith_Jiang

最新推荐文章于 2024-07-15 15:40:17 发布

阅读量2.6k

点赞数 7

分类专栏：机器学习文章标签：朴素贝叶斯 sklearn Python 机器学习新闻分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Keith_Jiang/article/details/88381923

版权

这篇博客介绍了如何使用Python的sklearn库实现朴素贝叶斯算法进行文本分类，特别是针对20种新闻类型的分类任务。通过讲解概率基础知识、贝叶斯公式和朴素贝叶斯假设，详细阐述了文本分类的原理，并展示了从获取数据到模型评估的完整机器学习开发流程。

摘要由CSDN通过智能技术生成

朴素贝叶斯（Naive Bayes）的定义

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。在了解朴素贝叶斯之前，我们一起回顾一下概率的一些基础知识。

概率（Probability）的基础知识

概率就是随机事件出现的可能性的量度，记作P(X) ，取值为0~1之间
如：扔一枚普通的硬币，正面朝上的概率和反面朝上的概率都为1/2：P(正) =1/2、P(反)=1/2
联合概率：多个事件同时发生的概率，P(A,B)
条件概率：事件A在事件B已经发生的条件下发生的概率，P(A|B)
相互独立：如果P(A,B) = P(A)P(B), 则称事件A与事件B相互独立，朴素贝叶斯的条件假设就事件相互独立

贝叶斯公式

在这里插入图片描述
贝叶斯公式+相互独立假设 = 朴素贝叶斯

朴素贝叶斯的实际应用-文本分类

如何使用朴素贝叶斯算法对文本进行分类呢？其原理是通过求一个文本中同时出现某些词的情况下属于各文本类别的概率，概率最高的则为预测类别。
在这里插入图片描述
以上图为例（我对中文文本进行了简单的手动分词，专业的分词以后再学习分享），要预测出测试集新闻类型，则转化为求以下几个概率，概率最大的则为预测所得的新闻类型（假设“与”不作为特征词）
P（体育|武磊，C罗，互换，球衣）
P（历史|武磊，C罗，互换，球衣）
P（娱乐|武磊，C罗，互换，球衣）

经过贝叶斯公式转化则为
P（武磊，C罗，互换，球衣|体育）*P（体育）/P(武磊，C罗，互换，球衣)
P（武磊，C罗，

最低0.47元/天解锁文章

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。