假设目前一文件中存放有一千万封邮件,如何将其分类,按照垃圾邮件和正常邮件分别插入数据库中。
处理原理
处理这个问题,选择贝叶斯分类的方法。
1、首先收集大量正常邮件和垃圾邮件作为样本
2、建立一个过滤词表,包含有对邮件分类不产生作用、不代表邮件特征的字符串列入,如"的"、“得”、“我”、“们”、“it”、“”,然后当训练分类器时,将这些字符串移除。
3、建立两个哈希表,Hashtable_Good对应非垃圾邮件集而Hashtable_Bad对应垃圾邮件集。表中存储KEY串到字频的映射关系,提取每封邮件主题和邮件体中的独立字符串,例如 “¥”、“法”、“律”、“发”等作为KEY串,每个KEY串出现一次,对应的哈希表中该KEY串对应值加1。
4、对下一封邮件,推断出当新来的邮件中出现某个KEY串时,该新邮件为垃圾邮件的概率。数学表达式为:
A事件——邮件为垃圾邮件;
t1,t2 ,...,tn代表KEY串
则P(A|ti)表示在邮件中出现key串ti时,该邮件为垃圾邮件的概率。
设
P1(ti)=(ti在hashtable_good中的值)
P2(ti)=(ti在hashtable_ bad中的值)
则 P(A|ti)= P1(ti)/[(P1(ti)+ P2(ti)];
5、建立新的哈希表 hashtable_probability存储KEY串ti到P(A|ti)的映射;
这样处理训练集的工作已经完成。
对于未知类型的邮件,按照3的方法提取出字符串KEY集假,设由该邮件共得到N个key串,t1,t2…….tn,每个key串在邮件中出现次数为k1,k2,....kn, 其出现在邮件中的概率Qn为k1/n,....kn/n,hashtable_probability中对应的值为P1,P2,。。。。。。PN,P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个KEY串t1,t2…….tn时,该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3……tn)=(P1*P2*...PN)/[P1*P2*...PN+(1-P1)*(1-P2)...(1-PN)]
当P(A|t1 ,t2, t3……tn)超过预定阈值时,就可以判断邮件为垃圾邮件。
上面就是分类这些邮件的方法。
处理步骤
1、文件拆分
上文给出的是存放有一千万封邮件的文件,其大小估计为
1KB*1000*1000*10=10GB,不能一次性装入内存。需要将其拆分为小文件
拆分方法有按大小,也有按邮件个数。
按大小编程代码(改写自
Wally