机器学习与垃圾短信识别
前不久,我们使用NLTK的贝叶斯分类模型垃圾对短信数据进行机器学习的垃圾短信识别。
其实除了使用NLTK,我们还可以使用Scikit-Learn这个集成了诸多机器学习算法的模块进行上述的实验。
Scikit-Learn的API设计非常合理和高效,对于初触机器学习的同学来说非常友好,值得大家尝试和使用。本人也经常在实验环境和工作环境中使用scikit-learn进行机器学习的建模。
下面,我们就使用scikit-learn模块,通过其朴素贝叶斯算法API对短信数据进行一次垃圾短信的识别。
导入短信数据
首先,我们需要对原始的短信数据进行处理,导入pandas模块和jieba模块。
pandas模块用于读取和处理数据,jieba模块用于对短信进行分词。
接着,我们导入短信数据:
查看一下部分短信数据: