python 朴素贝叶斯算法实现垃圾邮件分类

最新推荐文章于 2024-07-29 15:51:04 发布

每天都要被自己菜醒

最新推荐文章于 2024-07-29 15:51:04 发布

阅读量2.4k

点赞数 6

文章标签： python 机器学习深度学习算法

本文链接：https://blog.csdn.net/qq_45531594/article/details/108313315

版权

本文介绍如何使用Python的朴素贝叶斯算法进行垃圾邮件分类。通过构建和训练模型，对邮件文本进行特征提取，实现高效准确的垃圾邮件识别功能。

摘要由CSDN通过智能技术生成

import numpy as np
import re
import random
 
 
 
"""
函数说明:将切分的实验样本词条整理成不重复的词条列表，也就是词汇表
Parameters:
    dataSet - 整理的样本数据集
Returns:
    vocabSet - 返回不重复的词条列表，也就是词汇表
"""
def createVocabList(dataSet):
    vocabSet = set([])  # 创建一个空的不重复列表
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 取并集
    return list(vocabSet)
 
 
"""
函数说明:根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0
Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词集模型
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)               #创建一个其中所含元素都为0的向量
    for word in inputSet:                          #遍历每个词条
        if word in vocabList:                      #如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec        #返回文档向量
 
 
"""
函数说明:根据vocabList词汇表，构建词袋模型
Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词袋模型
"""
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:             # 遍历每个词条
        if wor