0 简述
早期的垃圾分类都是基于规则的分类器,缺点 :1)垃圾信息制造者知道规则后,可以轻松避开 ;2)是否为垃圾信息很大程度上因其所面对的读者和张贴位置的不同而不同。
1 文档和单词
将构造的分类器须利用某些特征来对不同的内容项进行分类。所谓特征,是指任何可以用来判断内容中具有或是缺失的东西。当考虑对文档分类时,内容则是文档,特征则是文档中的单词。 python中的re包来处理(正则表达式)。
2 对分类器进行训练
分类器目的:从极为不确定的状态开始,随着分类器不断了解到那些特征对于分类而言,更为重要,其确定性也在逐渐增加。
3 计算概率
对一封电子邮件在每个分类中的出现次数进行统计,将其转化为概率。
P(Word|Classification),即给定一个分类,某个单词出现的概率。
存在的问题,一个单词在不同样本中可以划分不同类。 解决方案:对单词进行加权
4 朴素分类器
朴素贝叶斯: Pr(A|B) = Pr(B|A)* Pr(A) / Pr(B)
在垃圾信息过滤中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要,为了解决这个问题,为每个分类定义一个最小阈值。
5 费舍尔方法
函数需求三个变量:
1)属于某分类的概率 clf = Pr(feature|category)
2)属于所有分类的概率 freqsum = Pr(feature|category)之和
3)cporb = clf / freqsum
费舍尔计算方法所有特征概率相乘,然后取自然对数,再将所得结果乘以-2,若概率彼此独立且随机分布,这一结果将满足对数卡方分布。