文档过滤

1、早期的过滤器

早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有:
-英文大写字母的过度使用
-与医药学相关的单词
-过于花哨的HTML用色等

2、智能分类器

a. 特征提取

将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。
如何选取单词也是需要考虑的事情,比如文档的题目、末尾,或者单词的大小写处理

b. 对分类器进行训练

利用已知的文档,训练文档特征与分类之间的关系

c. 计算概率

3、朴素贝叶斯分类器

分类的数学描述
这里写图片描述同的核心思想。

a. 贝叶斯公式

这里写图片描述
朴素的意思是事件A和事件B相互独立。

b. 朴素贝叶斯分类器

这里写图片描述
分类时我们需要的就是计算某种特征发生时,其属于某种类别的概率。而往往某种类别中某种特征发生的概率更容易知道,再已知某种特征出现的概率和某种类别出现的概率,便可解了。
朴素贝叶斯分类器提供了一种简单的分类方法,但往往我们面对的问题不是“朴素”的,该方法便不再适合了。

4、费舍尔分类器

Fisher线性判别:
Fisher决策的出发点是:把所有的样本都投影到一维空间,使得在投影线上最易于分类 。
那什么是最易于分类的投影面呢?我们希望这个投影面是这样的: 投影后两类相隔尽可能远,而对同一类的样本又尽可能聚集。
参考:带你搞懂朴素贝叶斯分类算法
线性分类器之Fisher线性判别

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值