机器学习手记[3]---朴素贝叶斯识别垃圾邮件的应用

最新推荐文章于 2024-04-10 20:04:00 发布

虾米ning

最新推荐文章于 2024-04-10 20:04:00 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/a_31415926/article/details/39855501

版权

本文探讨了利用朴素贝叶斯算法来识别垃圾邮件的方法，基于已有的邮件训练集，通过计算特定词汇集合出现的概率来判断新邮件是否为垃圾邮件。

摘要由CSDN通过智能技术生成

本文主要基于《机器学习实战》朴素贝叶斯章节进行的，

问题：有一封邮件如何判定这个邮件是不是垃圾邮件？假定我们已经有了好几封邮件的训练材料，同时做出了是否垃圾的分类。

解决：P(邮件是垃圾邮件|邮件包含某个词汇集合)*P(邮件包含词汇集合)

用email的例子来讲，就这这样操作的。

from numpy import *

# load training dataset



#添加数据集，
#加载包含5条短的message训练文本，及其对应是否垃圾邮件的分类结果
def loadDataSet():    
    trainMessages=[
            ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
            ['maybe', 'not', 'take