引言
朴素贝叶斯分类是机器学习分类方法中的经典,借助邮件数据中的文本感受一下朴素贝叶斯分类的效果以及后续的改进!
数据介绍
一共有6000多个垃圾邮件,我们对邮件中的正文信息、附件信息以及头部信息分别做了处理!其实大部分时间是花在了数据处理上!!!其中有三分之二的数据是非垃圾邮件下的,本文只是完成了数据处理和朴素贝叶斯分类,当然还有更好的分类方法,大家可以多尝试!!
代码
数据处理以及实现朴素贝叶斯分类只使用到了tm
包。
names(num) = NULL
library(tm)
stopWords = stopwords