基于朴素贝叶斯的垃圾邮件分类Python实现

最新推荐文章于 2024-10-15 12:04:02 发布

半巷巷巷巷

最新推荐文章于 2024-10-15 12:04:02 发布

阅读量402

点赞数 1

文章标签： python 分类开发语言

本文链接：https://blog.csdn.net/m0_58945584/article/details/128015554

版权

使用Enron Email Dataset数据集，通过Python进行预处理后，利用朴素贝叶斯算法实现垃圾邮件分类。实验结果显示，测试集分类正确率高达98%。

摘要由CSDN通过智能技术生成

数据邮件预处理：

Enron Email Dataset数据集可以点击下面链接下载

链接：https://pan.baidu.com/s/1qYrIXxP4gaja19uHjrm1xA
提取码：1234

代码实现：

import os
import re
import string
import math

DATA_DIR = 'enron'
target_names = ['ham', 'spam']


def get_data(DATA_DIR):
    subfolders = ['enron%d' % i for i in range(1, 7)]
    data = []
    target = []
    for subfolder in subfolders:
        # spam
        spam_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'spam'))
        for spam_file in spam_files:
            with open(os.path.join(DATA_DIR, subfolder, 'spam', spam_file), encoding="latin-1") as f:
                data.append(f.read())
                target.append(1)
        # ham
        ham_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'ham'))
        for ham_file in ham_files:
            with open(os.path.join(DATA_DIR, subfolder, 'ham', ham_file), encoding="latin-1") as f:
                data.append(f.read())
                target.append(0)
    return data, target


X, y = get_data(DATA_DIR)


class SpamDetector_1(object):
    """Implementation of Naive Bayes for binary classification"""

    # 清除空格
    def clean(self, s):
        translator =