1、读取数据
在这个代码段中,我们读入了所有邮件内容和标签,其中邮件内容存储在data中,标签存储在target当中,“1”表示为垃圾邮件,“0”表示为正常邮件。
2、数据预处理
对每个句子清除标点符号,分词,计算单词出现的次数;词汇表(即正常邮件和垃圾邮件中出现的所有单词,方便进行拉普拉斯平滑);垃圾邮件和非垃圾邮件的词频,即给定词在垃圾邮件和非垃圾邮件中出现的次数。
3、数据处理
计算(对数)类先验,即计算P(垃圾邮件)和P(正常邮件)
4、测试阶段
代码:
1、读取数据
在这个代码段中,我们读入了所有邮件内容和标签,其中邮件内容存储在data中,标签存储在target当中,“1”表示为垃圾邮件,“0”表示为正常邮件。
2、数据预处理
对每个句子清除标点符号,分词,计算单词出现的次数;词汇表(即正常邮件和垃圾邮件中出现的所有单词,方便进行拉普拉斯平滑);垃圾邮件和非垃圾邮件的词频,即给定词在垃圾邮件和非垃圾邮件中出现的次数。
3、数据处理
计算(对数)类先验,即计算P(垃圾邮件)和P(正常邮件)
4、测试阶段
代码: