1.
打开
Jupyter
后,在工作目录中,新建一个文件夹命名为
Test01
,并且在文件夹中导入数据
集。在网页端界面点击
“upload”
按钮,在弹出的界面中选择要导入的数据集。然后数据集出现
在
jupyter
文件目录中,此时点击文件后的
“upload”
按钮即可将数据集导入。
![](https://img-blog.csdnimg.cn/direct/2380b01c04ad428fb0efa90230306dc3.png)
2.
点击
New->Python 3
后,跳转至
Untitled.ipynb
(课后请重命名为
NBofSMS.ipynb
)
![](https://img-blog.csdnimg.cn/direct/75f7595d5f67407691b1bdce9e043722.png)
3.
导入所需的库文件并运行
![](https://img-blog.csdnimg.cn/direct/707f19ad82ae4e878cdc8ff6f9537961.png)
4.
将广告类的标识置为
1
,正常邮件标识为
0
,编写创建数据集、加载数据的函数
loadDataSet()
,编写完成后编译并运行
Cell
,箭头处代码自己添加,提示:字符串转化为字符
串列表可参考本文提供的函数
![](https://img-blog.csdnimg.cn/direct/dfc5f344d7eb4783a46385b0cec5aff6.png)
5.
编写
textParse()
函数的代码并且编译运行,该函数用于接收一个大字符串并将其解析为字符串
列表
![](https://img-blog.csdnimg.cn/direct/e4619572c8e640018504b7bef6fc90d9.png)
6.
在
Cell
中写入
docs2VecList()
函数的代码,该函数用于对数据集进行预处理,编写完成后 编译
并运行
![](https://img-blog.csdnimg.cn/direct/8c8dfd01391043a2a66c6bbaa60ecc6f.png)
7.
编写
words2Vec()
函数将单词转化为词向量。
![](https://img-blog.csdnimg.cn/direct/1abf7e2370554b49b85bd437aaa4778e.png)
8.
在
Cell
中写训练函数,训练
Naïve Bayes
模型,完成后编译并运行
![](https://img-blog.csdnimg.cn/direct/ece718fd0c264327989a1166e1bc81f3.png)
9.
编写使用
Naive Bayes
模型的接口,如果是垃圾邮件则返回
1
,非垃圾邮件则返回
0
![](https://img-blog.csdnimg.cn/direct/9aedd868035c427fbdd4d0e4e2150348.png)
10.
用中文打印分类结果
![](https://img-blog.csdnimg.cn/direct/13d732dea8e946b28bd4809891817f0f.png)
11.
编写主函数调用上述函数实现本次实验
![](https://img-blog.csdnimg.cn/direct/ccb32d64e4cc4a0483b4d3b0e863fbef.png)