本章主要以SMS Spam Collection数据集为例介绍骚扰短信的识别技术。介绍识别骚扰短信使用的特征提取方法,包括扩词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。
8.1 数据集
测试数据来自SMS Spam Collection数据集,SMS Spam Collection是用于骚扰短信识别的经典数据集,完全来自真实短信内容,包括4831条正常短信和747条骚扰短信。
8.2 特征提取
8.2.1 词袋和TF-IDF模型
8.2.2 词汇表模型
8.2.3 Word2Vec模型和Doc2Vec模型
8.3 模型训练与验证
8.3.1 朴素贝叶斯算法
8.3.2 支持向量机算法
8.3.3 XGBoost算法
8.3.4 深度学习算法之MLP