Python+sklearn练习朴素贝叶斯算法

这篇博客介绍了如何使用Python的sklearn库实现朴素贝叶斯算法进行文本分类,特别是针对20种新闻类型的分类任务。通过讲解概率基础知识、贝叶斯公式和朴素贝叶斯假设,详细阐述了文本分类的原理,并展示了从获取数据到模型评估的完整机器学习开发流程。
摘要由CSDN通过智能技术生成

朴素贝叶斯(Naive Bayes)的定义

朴素贝叶斯是基于贝叶斯定理特征条件独立假设的分类方法。在了解朴素贝叶斯之前,我们一起回顾一下概率的一些基础知识。

概率(Probability)的基础知识

概率就是随机事件出现的可能性的量度,记作P(X) ,取值为0~1之间
如:扔一枚普通的硬币,正面朝上的概率和反面朝上的概率都为1/2:P(正) =1/2、P(反)=1/2
联合概率:多个事件同时发生的概率,P(A,B)
条件概率:事件A在事件B已经发生的条件下发生的概率,P(A|B)
相互独立:如果P(A,B) = P(A)P(B), 则称事件A与事件B相互独立,朴素贝叶斯的条件假设就事件相互独立

贝叶斯公式

在这里插入图片描述
贝叶斯公式+相互独立假设 = 朴素贝叶斯

朴素贝叶斯的实际应用-文本分类

如何使用朴素贝叶斯算法对文本进行分类呢?其原理是通过求一个文本中同时出现某些词的情况下属于各文本类别的概率,概率最高的则为预测类别。
在这里插入图片描述
以上图为例(我对中文文本进行了简单的手动分词,专业的分词以后再学习分享),要预测出测试集新闻类型,则转化为求以下几个概率,概率最大的则为预测所得的新闻类型(假设“与”不作为特征词)
P(体育|武磊,C罗,互换,球衣)
P(历史|武磊,C罗,互换,球衣)
P(娱乐|武磊,C罗,互换,球衣)

经过贝叶斯公式转化则为
P(武磊,C罗,互换,球衣|体育)*P(体育)/P(武磊,C罗,互换,球衣)
P(武磊,C罗,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值