06.朴素贝叶斯实现垃圾邮件分类

 

采用贝叶斯理论进行垃圾邮件过滤是一种应用于电子邮件过滤的统计学技术。它实质是使用贝叶斯分类来对邮件的属性进行判别,这个属性包括:垃圾邮件和非垃圾邮件。

贝叶斯分类的运作是借着使用标记(一般是字词,有时候是其他)与垃圾邮件、非垃圾邮件的关联,然后搭配贝叶斯推断来计算一封邮件属于垃圾邮件的可能性。基于贝叶斯的垃圾邮件过滤是非常有效的技术,可以修改模型以符合特殊使用者的需要,并且给予较低的垃圾邮件侦测率,让使用者可接受。

1、朴素贝叶斯实现垃圾邮件分类的步骤


(1)收集数据:提供文本文件。

(2)准备数据:将文本文件解析成词条向量。

(3)分析数据:检查词条确保解析的正确性。

(4)训练算法:计算不同的独立特征的条件概率。

(5)测试算法:计算错误率。

(6)使用算法:构建一个完整的程序对一组文档进行分类。

数据集:

所采用的数据集为Enron Email Dataset。该数据集已经对正常邮件和垃圾邮件进行了分类。

 

import os
import re
import string
import math

DATA_DIR = 'enron'
target_names = ['ham', 'spam']


def get_data(DATA_DIR):
    subfolders = ['enron%d' % i for i in range(1, 7)]
    data = []
    target = []   #目录
    for subfolder in subfolders:
        # spam
        spam_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'spam'))
        for spam_file in spam_files:
            with open(os.path.join(DATA_DIR, subfolder, 'spam', spam_file), encoding="latin-1") as f:
              
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值