本文重点
前面我们学习了朴素贝叶斯算法,本文我们完成一个实战课程,具体来说就是如何使用朴素贝叶斯算法完成垃圾邮件的分类任务,朴素贝叶斯完成垃圾邮件的分类效果很好,这里我们就不对朴素贝叶斯算法进行介绍了,如何第一个看本专栏的可以看前面几个关于朴素贝叶斯的介绍。
数据准备
现在有两个文件,一个文件是训练数据(带有标签的),另外一个是测试集数据(没有标签)
我们第一步的任务是将train训练数据分为两个文件,一个文件只存邮件的文本,另外一个文件存储邮件多对应的标签,那么执行下面的任务就可以完成,这个代码就遍历每一个样本,然后将文本放到email.txt中,然后将标签放到labels.txt中
使用随机森林算法需要我们手动构建特征,这里我们使用tf-idf的方式来看一下,我们如何构建样本的特征。这里我们使用tf-idf工具,只需要把数据放入进去就可以自动构建出tf-idf数据了
如代码所示,这里我们有两个tf-idf的方法,不同点是一个为了