【Python机器学习】朴素贝叶斯——使用朴素贝叶斯进行文档分类（理论基础）

zhangbin_237

于 2024-07-27 11:03:27 发布

阅读量306

点赞数 2

分类专栏： Python机器学习文章标签：机器学习 python 分类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39407597/article/details/140725844

版权

机器学习的一个重要应用就是文档的自动分类。在文档分类中，整个文档（比如电子邮件）是实例，而电子邮件中的某些元素则构成特征。虽然电子邮件是一种会不断增加的文本，但我们同样也可以对新闻报道、用户流言、公文等其他任意类型的文本进行分类。我们可以观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是贝叶斯分类器的一个扩展，适用于文档分类的常用算法。

使用每个词作为特征并观察他们是否出现，这样得到的特征数目会非常非常多。据估计，仅在英语中，单词总数就有500000之多，为了进行英文阅读，估计需要掌握数千单词。

朴素贝叶斯的一般过程：

1、收集数据

2、准备数据：需要数值型或者布尔型数据

3、分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好

4、训练算法

5、测试算法

6、使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

假设词汇表中有1000个单词。要得到好的概率分布，就需要足够的数据样本，假定样本数为N。由统计学知，如果每个特征需要N个样本，那么对于10个特征将需要 $N^{10}$ 个样本，对于包含1000个特征的词汇表将需要 $N^{1000}$ 个样本。可以看到，所需要的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。