【二十】机器学习之路——朴素贝叶斯实战(文本分类)

最新推荐文章于 2024-08-18 11:53:15 发布

Easy_ray

最新推荐文章于 2024-08-18 11:53:15 发布

阅读量7.9k

点赞数 1

分类专栏：机器学习 Python 文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c369624808/article/details/78906630

版权

本文介绍了如何使用朴素贝叶斯进行文本分类，通过《机器学习实战》中的例子，详细讲解了从文本预处理构建词汇向量，训练函数修正，到分类函数的实现过程，最后进行了分类器的检验。

摘要由CSDN通过智能技术生成

[写在前面：最近工作上事情比较多，加上年终述职和元旦假期去首都玩了一次，导致这篇博客前前后后写了快有半个月，跨越了2017和2018年，意义非凡。在这里祝大家新年快乐，也希望自己在新的一年能够坚持学习，提升自己！]

上一篇博客机器学习之路——朴素贝叶斯分类写到了朴素贝叶斯的理论知识，今天来讲一下朴素贝叶斯实战——文本分类，本文内容参考《机器学习实战》。

举个简单的例子，我们在网上发帖的时候，如果文章里有侮辱性的词汇的话，系统会识别该文章为不合格，并禁止发表，那么网络平台就需要一个过滤器来帮助其完成识别的工作。简单化该问题，假设我们需要将每篇文章分为两类：侮辱性1和非侮辱性0。如何利用朴素贝叶斯来进行分类呢？

还记得朴素贝叶斯的公式么：

P(ci|w)=P(w|ci)⋅P(ci)P(w) $P(c_{i}|w)=\frac{P(w|c_{i})\cdot P(c_{i})}{P(w)}$
这里

cj $c_{j}$ 可理解为文章的分类，

c0 $c_{0}$ 代表不合格，

c1 $c_{1}$ 代表合格。

w $w$ 可以理解为文章的各个特征，即词汇，每个词汇都算是一篇文章的独立特征，假设有n个独立特征，所有词都相互独立，上式可以写成：

P(ci|w)=P(w0,w1,w2,...,wn|

最低0.47元/天解锁文章

关注

1
点赞
踩
39

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。