大数据处理学习之 垃圾邮件判定1

这篇博客介绍了如何利用贝叶斯分类方法处理大量邮件,将其分类为垃圾邮件和正常邮件。首先收集样本,建立过滤词表和哈希表,接着通过训练集计算每个关键词在垃圾邮件和非垃圾邮件中出现的概率。对于未知邮件,根据关键词概率判断是否为垃圾邮件。处理过程中,由于文件过大,需要按大小或邮件数量进行文件拆分。
摘要由CSDN通过智能技术生成

假设目前一文件中存放有一千万封邮件,如何将其分类,按照垃圾邮件和正常邮件分别插入数据库中。

处理原理

处理这个问题,选择贝叶斯分类的方法。
1、首先收集大量正常邮件和垃圾邮件作为样本
2、建立一个过滤词表,包含有对邮件分类不产生作用、不代表邮件特征的字符串列入,如"的"、“得”、“我”、“们”、“it”、“”,然后当训练分类器时,将这些字符串移除。
3、建立两个哈希表,Hashtable_Good对应非垃圾邮件集而Hashtable_Bad对应垃圾邮件集。表中存储KEY串到字频的映射关系,提取每封邮件主题和邮件体中的独立字符串,例如 “¥”、“法”、“律”、“发”等作为KEY串,每个KEY串出现一次,对应的哈希表中该KEY串对应值加1。
4、对下一封邮件,推断出当新来的邮件中出现某个KEY串时,该新邮件为垃圾邮件的概率。数学表达式为:
A事件——邮件为垃圾邮件;
t1,t2 ,...,tn代表KEY串
则P(A|ti)表示在邮件中出现key串ti时,该邮件为垃圾邮件的概率。

P1(ti)=(ti在hashtable_good中的值)
P2(ti)=(ti在hashtable_ bad中的值)
则 P(A|ti)= P1(ti)/[(P1(ti)+ P2(ti)];
5、建立新的哈希表 hashtable_probability存储KEY串ti到P(A|ti)的映射;
这样处理训练集的工作已经完成。
对于未知类型的邮件,按照3的方法提取出字符串KEY集假,设由该邮件共得到N个key串,t1,t2…….tn,每个key串在邮件中出现次数为k1,k2,....kn, 其出现在邮件中的概率Qn为k1/n,....kn/n,hashtable_probability中对应的值为P1,P2,。。。。。。PN,P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个KEY串t1,t2…….tn时,该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3……tn)=(P1*P2*...PN)/[P1*P2*...PN+(1-P1)*(1-P2)...(1-PN)]
当P(A|t1 ,t2, t3……tn)超过预定阈值时,就可以判断邮件为垃圾邮件。
上面就是分类这些邮件的方法。

处理步骤

  1、文件拆分

上文给出的是存放有一千万封邮件的文件,其大小估计为
1KB*1000*1000*10=10GB,不能一次性装入内存。需要将其拆分为小文件
拆分方法有按大小,也有按邮件个数。
按大小编程代码(改写自
Wally

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值