大数据处理学习之垃圾邮件判定1

最新推荐文章于 2022-08-24 07:00:00 发布

liyan123hn

最新推荐文章于 2022-08-24 07:00:00 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/liyan123hn/article/details/38516831

版权

这篇博客介绍了如何利用贝叶斯分类方法处理大量邮件，将其分类为垃圾邮件和正常邮件。首先收集样本，建立过滤词表和哈希表，接着通过训练集计算每个关键词在垃圾邮件和非垃圾邮件中出现的概率。对于未知邮件，根据关键词概率判断是否为垃圾邮件。处理过程中，由于文件过大，需要按大小或邮件数量进行文件拆分。

摘要由CSDN通过智能技术生成

假设目前一文件中存放有一千万封邮件，如何将其分类，按照垃圾邮件和正常邮件分别插入数据库中。

处理原理

处理这个问题，选择贝叶斯分类的方法。
1、首先收集大量正常邮件和垃圾邮件作为样本
2、建立一个过滤词表，包含有对邮件分类不产生作用、不代表邮件特征的字符串列入，如"的"、“得”、“我”、“们”、“it”、“”，然后当训练分类器时，将这些字符串移除。
3、建立两个哈希表，Hashtable_Good对应非垃圾邮件集而Hashtable_Bad对应垃圾邮件集。表中存储KEY串到字频的映射关系，提取每封邮件主题和邮件体中的独立字符串，例如 “￥”、“法”、“律”、“发”等作为KEY串，每个KEY串出现一次，对应的哈希表中该KEY串对应值加1。
4、对下一封邮件，推断出当新来的邮件中出现某个KEY串时，该新邮件为垃圾邮件的概率。数学表达式为：
A事件——邮件为垃圾邮件;
t1,t2 ,...,tn代表KEY串
则P（A|ti）表示在邮件中出现key串ti时，该邮件为垃圾邮件的概率。
设
P1（ti）=（ti在hashtable_good中的值）
P2（ti）=（ti在hashtable_ bad中的值）
则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）]；
5、建立新的哈希表 hashtable_probability存储KEY串ti到P（A|ti）的映射；
这样处理训练集的工作已经完成。
对于未知类型的邮件，按照3的方法提取出字符串KEY集假，设由该邮件共得到N个key串，t1,t2…….tn,每个key串在邮件中出现次数为k1，k2,....kn, 其出现在邮件中的概率Qn为k1/n,....kn/n,hashtable_probability中对应的值为P1，P2，。。。。。。PN，P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个KEY串t1,t2…….tn时，该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3……tn)=（P1*P2*...PN）/[P1*P2*...PN+（1-P1）*（1-P2）...（1-PN）]
当P(A|t1 ,t2, t3……tn)超过预定阈值时，就可以判断邮件为垃圾邮件。
上面就是分类这些邮件的方法。