朴素贝叶斯文本分类

最新推荐文章于 2024-07-14 12:25:25 发布

cowboy_wz

最新推荐文章于 2024-07-14 12:25:25 发布

阅读量5.5k

点赞数 1

分类专栏：文本分类文章标签： classification 体育算法 c 娱乐任务

文本分类专栏收录该内容

61 篇文章 1 订阅

订阅专栏

俺不是大牛啊，只能写写这种浅显的文章了，算是抛砖引玉吧

naive bayes（朴素贝叶斯，下面简称NB ^_^）是ML中的一个非常基础和简单的算法，常常

用它来做分类，我用它做过text classification。现在的研究中大概已经很少有人用它来

实验了（除非是做base line），但确实是个很好的入门的算法，来帮助自己更加深刻的理

解ML的本质。

首先从bayes公式开头吧

P（C/W） = P(C) * P(W/C) / P(W)

这个公式是ML中最基本也是最常用到的公式，怎么强调它的重要性都不过分。为了更容易理解这个公式，我将bayes公式放在文本分类问题中进行解释。

公式的左边，C代表的是文本的类别（例如是体育或者娱乐），W往往是一个测试样本（例如某一篇新闻），P(C/W)代表的是这个样本归属于该类别的概率，我们实际中的任务常常就是要得到样本归属各个类别的概率值P(C1/W),P(C2/W)...P(CN/W)，然后最大概率值所对应的类别Ci就是该样本被分配的类。

计算这个概率值的方法就是bayes公式的右边。

P(C)表示C这个类别在所有文本中的概率，是先验概率。实际中，这个值往往通过训练语

料计算得到，例如，将训练语料中所有的体育文本数除以训练语料总的文本数，就是体育这

个类别的先验概率。

P(W)则是通过这个公式计算：

P(W) = ∑P(W/Ci) * P(Ci)

可以看出，P(W)的计算可以通过 P(C)和P(W/C)得到。

P(W/C)的计算下面将重点介绍。

现在的问题是怎样计算P(W/C)。在现实中，W这个样本往往是用向量表示的，包括了很多的分量 W = (w1, w2, w3, ... wn)，所以 P(W/C) = P(w1, w2, w3, ... wn / C)，

NB的核心在于它假设向量的所有分量之间是独立的。

Wi is independent of Wj, if i != j

对！这个假设就是NB的全部内容了，是不是很简单。有了这个假设，P(W/C)的计算就变为：

P(W/C) = ∏ P(wi / C)

有人可能会问，那么 P(Wi / C)怎么求呢。以文本分类为例，将文本作为一个向量，那么Wi

的分量就是一个词在这个文本中是否存在。例如：

Wi = 1 if "乔丹" 在文本中出现

0 otherwise

对于这个Wi，它的P(Wi / C体育) 就是统计所有的体育文章中有多少篇出现了“乔丹”这

词，然后用出现篇章数 / 所有体育篇章数就是我们要的概率值了。

好了，终于写完了，回过头看，其实NB很简单，就是在bayes公式的基础上多了一个独立性假设，很好理解的。至于它的性能，各有各的说法，我认为很多时候你对于特征的提取和方法参数的设置更重要于算法本身，当然，that is another open question

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
朴素贝叶斯文本分类

俺不是大牛啊，只能写写这种浅显的文章了，算是抛砖引玉吧 naive bayes（朴素贝叶斯，下面简称NB ^_^）是ML中的一个非常基础和简单的算法，常常用它来做分类，我用它做过text classification。现在的研究中大概已经很少有人用它来实验了（除非是做base line），但确实是个很好的入门的算法，来
复制链接

扫一扫

专栏目录

cowboy_wz CSDN认证博客专家 CSDN认证企业博客

码龄19年

360: 原创

5万+: 周排名

226万+: 总排名

319万+: 访问

: 等级

3万+: 积分

2004: 粉丝

425: 获赞

322: 评论

1316: 收藏

私信

关注

热门文章

分类专栏

java 学习 18篇
mat_lab 51篇
svm研究 15篇
TEX之路 6篇
探知索识 55篇
数学王国 31篇
数据挖掘 60篇
文本分类 61篇
机器学习 82篇
知识梳理 35篇
知识网格 31篇
科研之路 97篇
算法描述 22篇
问题集锦 57篇

最新评论

粗糙集理论
冲击文: C是属性的子集
如何快速切换静态和动态ip
粒子白: 可以用感谢
Attempt to execute SCRIPT plot as a function?
qq_33859558: 谢谢~
一稿多投与重复发表
逯先生。: 老师您好我想问一下，我想给B期刊投稿，但是因操作失误投到了A期刊那里，并且我知编辑的信是写的B期刊的。我立马给编辑和该期刊发送电子邮件说明情况请求撤销该次投稿，在没得到他们回复之前，我继续投B期刊算一稿多投吗？
手机、数码相机数据丢失恢复方法汇总
dintc: 需要恢复的卡暂时不要存入新的文件，可以用读卡器连接到电脑，再用 AornData 恢复里面的文件。

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。