Python 朴素贝叶斯垃圾短信分类

最新推荐文章于 2023-09-22 08:05:05 发布

国美学弟

最新推荐文章于 2023-09-22 08:05:05 发布

阅读量4k

点赞数 2

分类专栏： Anaconda Python 朴素贝叶斯文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guomei_eros/article/details/84930682

版权

本文介绍了使用Python的朴素贝叶斯算法对100W条短信进行垃圾短信分类的毕设项目。实验环境包括Python、Anaconda、Pycharm、Hadoop和Spark。预处理步骤涉及文本分离、分词、去停用词和去单字。最终通过朴素贝叶斯算法得出分类结果。

摘要由CSDN通过智能技术生成

0.前言

没写完.有时间会更新

这是接着我的第一篇博客,搭建好Hadoop伪分布式后,完成的整个毕设.毕设的主要内容是完成对100W短信进行垃圾短信分类.其中80W是含有标签0/1的数据,还有20W是无标签数据.最后的效果评判主要是进行交叉验证.

1.总体思路

首先是用到的实验环境和相关技术

1.1实验环境

Python 3.6.5 + Anaconda3 + Pycharm + Hadoop + spark

伪分布式的Hadoop搭建参见我的博客

伪分布式Hadoop的搭建

其实,不用Hadoop + spark也能跑,我只是觉得毕设工作量太少,所以强行加的.

1,2思路

当初也很小白,简单的思路就是分离数据和标签、文本分词、套用已有的朴素贝叶斯库---->得出结果.

后来和实验室的老师交流的过程中才觉得缺了很多步骤.

最低0.47元/天解锁文章

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。