第8章 骚扰短信识别

        本章主要以SMS Spam Collection数据集为例介绍骚扰短信的识别技术。介绍识别骚扰短信使用的特征提取方法,包括扩词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。

8.1 数据集

        测试数据来自SMS Spam Collection数据集,SMS Spam Collection是用于骚扰短信识别的经典数据集,完全来自真实短信内容,包括4831条正常短信和747条骚扰短信。

8.2 特征提取

8.2.1 词袋和TF-IDF模型

8.2.2 词汇表模型

8.2.3 Word2Vec模型和Doc2Vec模型

8.3 模型训练与验证

8.3.1 朴素贝叶斯算法

8.3.2 支持向量机算法

8.3.3 XGBoost算法

8.3.4 深度学习算法之MLP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值