贝叶斯③——Python实现贝叶斯文本分类（伯努利&多项式模型对比）

最新推荐文章于 2024-08-06 11:08:19 发布

数据小斑马

最新推荐文章于 2024-08-06 11:08:19 发布

阅读量5k

点赞数 8

分类专栏：贝叶斯文章标签：贝叶斯文本文类 python实现贝叶斯伯努利与多项式在文本分类贝叶斯分类词典

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy407/article/details/93657580

版权

本文介绍了如何用Python实现贝叶斯文本分类，对比了伯努利模型和多项式模型。通过加载数据、构建词典、向量化、计算概率，展示了两类模型的实现过程。实验结果显示，伯努利模型在训练样本较少时表现优于多项式模型，而多项式模型在样本丰富时可能更具优势。

摘要由CSDN通过智能技术生成

贝叶斯机器学习系列：
贝叶斯①——贝叶斯原理篇（联合概率&条件概率&贝叶斯定理&拉普拉斯平滑)
贝叶斯②——贝叶斯3种分类模型及Sklearn使用（高斯&多项式&伯努利）
贝叶斯④——Sklean新闻分类（TF-IDF）
贝叶斯⑤——搜狗新闻分类实战（jieba + TF-IDF + 贝叶斯）
贝叶斯⑥——银行借贷模型（贝叶斯与决策树对比）

虽然sklearn能直接调用贝叶斯分类，但是若能用Python代码敲出来，那也是非常有成就感的一件事，而且能进一步加深对算法过程的理解~

一、算法流程及函数解释

① loadData()：导入分类样本，如果样本是文档，先用jieba进行分词
② vecabulary()：用集合生成词典（set|set会生成并集且自动删除重复元素）
③ Word2Vetorm()&Word2Vetor_m()：将样本转化成向量(用词典中的index[词语]获得下标），前者是伯努利模型，出现记录1，不出现记录0；后者是多项式模型，出现多少次就记多少，未出现则是0
④ cal_prob()&cal_prob_m()：前者是用伯努利模型计算先验概率和类条件概率，后者是用多项式，这里使用了拉普拉斯平滑（参数为1）来解决零概率问题，以及取log对数化乘法为加法，简化计算
⑤ naive_byes_classify()：生成分

最低0.47元/天解锁文章

数据小斑马

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。