集体智慧编程_6文档过滤

5 篇文章 0 订阅
5 篇文章 0 订阅

0 简述 

    早期的垃圾分类都是基于规则的分类器,缺点 :1)垃圾信息制造者知道规则后,可以轻松避开 ;2)是否为垃圾信息很大程度上因其所面对的读者和张贴位置的不同而不同。

1 文档和单词

     将构造的分类器须利用某些特征来对不同的内容项进行分类。所谓特征,是指任何可以用来判断内容中具有或是缺失的东西。当考虑对文档分类时,内容则是文档,特征则是文档中的单词。 python中的re包来处理(正则表达式)。

2 对分类器进行训练

分类器目的:从极为不确定的状态开始,随着分类器不断了解到那些特征对于分类而言,更为重要,其确定性也在逐渐增加。

3 计算概率

对一封电子邮件在每个分类中的出现次数进行统计,将其转化为概率。

P(Word|Classification),即给定一个分类,某个单词出现的概率。

存在的问题,一个单词在不同样本中可以划分不同类。 解决方案:对单词进行加权

4 朴素分类器

朴素贝叶斯: Pr(A|B) = Pr(B|A)* Pr(A) / Pr(B)

在垃圾信息过滤中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要,为了解决这个问题,为每个分类定义一个最小阈值。

5 费舍尔方法

函数需求三个变量:

1)属于某分类的概率 clf = Pr(feature|category)

2)属于所有分类的概率 freqsum = Pr(feature|category)之和

3)cporb = clf / freqsum

费舍尔计算方法所有特征概率相乘,然后取自然对数,再将所得结果乘以-2,若概率彼此独立且随机分布,这一结果将满足对数卡方分布。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值