下载W3Cschool手机App,0基础随时随地学编程
导语
利用简单的机器学习算法实现垃圾邮件识别。
让我们愉快地开始吧~
相关文件
密码: qa49
数据集源于网络,侵歉删。
开发工具
Python版本:3.6.4
相关模块:
scikit-learn模块;
jieba模块;
numpy模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
逐步实现
(1)划分数据集
网上用于垃圾邮件识别的数据集大多是英文邮件,所以为了表示诚意,我花了点时间找了一份中文邮件的数据集。数据集划分如下:
训练数据集:
7063封正常邮件(data/normal文件夹下);
7775封垃圾邮件(data/spam文件夹下)。
测试数据集:
共392封邮件(data/test文件夹下)。
(2)创建词典
数据集里的邮件内容一般是这样的:
首先,我们利用正则表达式过滤掉非中文字符,然后再用jieba分词库对语句进行分词,并清除一些停用词&#x