作者 | Deepal Dsilva
来源 | Towards Data Science
编辑| 代码医生团队
介绍
在过去的十年里,移动电话的使用量急剧上升,导致了一个新的垃圾场促销活动。人们在利用日常服务时无辜地发出手机号码,然后充斥着垃圾邮件促销信息。
在这篇文章中,我们将看看使用朴素贝叶斯机器学习模型对SMS消息进行分类,了解为什么朴素贝叶斯能够很好地适应这个用例,并且还可以潜入wordclouds来可视化这个数据集。让我们开始吧!
导入库和数据
我们将使用SMS Spam Collection中的数据集来创建垃圾邮件分类器。这可以从UCI机器学习库下载。
https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection
此数据集包括SMS消息的文本以及指示消息是否不需要的标签。垃圾邮件标记为垃圾邮件,而合法邮件标记为火腿。
#Import libraries
library(tm)
library(SnowballC)
library(wordcloud)
library(RColorBrewer)
library(e1071) #For Naive Bayes
library(caret) #For the Confusion Matrix
#Import data