0.前言
没写完.有时间会更新
这是接着我的第一篇博客,搭建好Hadoop伪分布式后,完成的整个毕设.毕设的主要内容是完成对100W短信进行垃圾短信分类.其中80W是含有标签0/1的数据,还有20W是无标签数据.最后的效果评判主要是进行交叉验证.
1.总体思路
首先是用到的实验环境和相关技术
1.1实验环境
Python 3.6.5 + Anaconda3 + Pycharm + Hadoop + spark
伪分布式的Hadoop搭建参见我的博客
其实,不用Hadoop + spark也能跑,我只是觉得毕设工作量太少,所以强行加的.
1,2思路
当初也很小白,简单的思路就是分离数据和标签、文本分词、套用已有的朴素贝叶斯库---->得出结果.
后来和实验室的老师交流的过程中才觉得缺了很多步骤.