模式识别贝叶斯分类器实现垃圾邮件分类代码全

李逍遥敲代码

已于 2022-06-02 07:51:35 修改

阅读量1.5k

点赞数 1

分类专栏：模式识别综合应用代码全文章标签： python 开发语言算法人工智能机器学习

于 2022-06-02 07:04:22 首次发布

本文链接：https://blog.csdn.net/weixin_41984456/article/details/125093821

版权

本文介绍了一个使用Python的贝叶斯模型实现垃圾邮件分类的项目，涉及词频统计、特征提取、概率计算等步骤。通过jieba分词、停用词过滤、正则表达式处理，构建词向量矩阵，再计算每封邮件的贝叶斯概率以判断垃圾邮件。在392封邮件测试集中，分类准确率达到95.15%。

摘要由CSDN通过智能技术生成

1．1 题目的主要研究内容

（1）工作的主要描述

利用贝叶斯模型实现简单的垃圾邮件分类，将正常邮件和垃圾邮件分别识别出来并分类。

系统流程图

1．2 题目研究的工作基础或实验条件

软件环境：Windows10

Python版本：3.7

相关模块：scikit-learn模块；jieba模块；numpy模块；以及⼀些Python⾃带的模块。

1．3 数据集描述

使用的中文邮件数据集和中文停用词表，其中spam文件夹中有7775封垃圾邮件，normal文件夹中有7063封正常邮件，test文件夹中有392封测试邮件，test文件夹中，文件名在1至200的为正常邮件，文件名7801~8000的为垃圾邮件。

1．4 特征提取过程描述

由于词典里的词数量太多，只保留了词频最高的4000个词作为最终创建的词典。词典准备好之后，把每封信的内容转换为词向量，其维度为4000，每一维代表一个高频词在该邮件中出现的频率，最后将这些词向量合并为一个大的特征向量矩阵，其大小为：(7063+7775)×4000，即前7063行为正常邮件的特征向量，其余为垃圾邮件的特征向量。

1．5 分类过程描述

对测试集中的每一封邮件用结巴分词，并用停用表进行简单过滤，然后使用正则表达式过滤掉邮件中的非中文字符，并计算得到P(s|w)（在已知词向量w的条件下求包含该词向量邮件是否为垃圾邮件的概率，s表示分类为垃圾邮件）最高的15个词，在计算过程中，若该词只出现在垃圾邮件的词典中，则令P(w|s')=0.01，反之亦然；若都未出现，则令P(s|w)=0.4（这里做的几个假设基于前人做的一些研究工作得出的）。然后计算得到的每封邮件中重要的15个词的贝叶斯概率，若概率>阈值α，则判为垃圾邮件，否则判为正常邮件。

1．6 主要程序代码

功能函数：

import jieba;

import os;

class spamEmailBayes:

# 获得中文停用词表

def getStopWords(self):

stopList=[]

for line in open("../data/中文停用词表.txt"):

stopList.append(line[:len(line)-1])

return stopList;

# 分别保存正常邮件与垃圾邮件中出现的词有多少邮件出现该词，得到两个词典