文档过滤

最新推荐文章于 2022-03-29 17:50:35 发布

san_rx

最新推荐文章于 2022-03-29 17:50:35 发布

阅读量308

点赞数

分类专栏：集体智慧编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/san_rx/article/details/78633784

版权

集体智慧编程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、早期的过滤器

早期的都是基于规则的分类器，使用事先设计好的一组规则，用于指明某条信息属于垃圾信息。典型的规则有：
-英文大写字母的过度使用
-与医药学相关的单词
-过于花哨的HTML用色等

2、智能分类器

a. 特征提取

将单词作为文档的特征，其假设：某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词，他们也可以是词组或者短语，或者任何可以归为文档中缺失或者不存在的其他东西。
如何选取单词也是需要考虑的事情，比如文档的题目、末尾，或者单词的大小写处理

b. 对分类器进行训练

利用已知的文档，训练文档特征与分类之间的关系

c. 计算概率

3、朴素贝叶斯分类器

分类的数学描述
这里写图片描述同的核心思想。

a. 贝叶斯公式

这里写图片描述
朴素的意思是事件A和事件B相互独立。

b. 朴素贝叶斯分类器

这里写图片描述
分类时我们需要的就是计算某种特征发生时，其属于某种类别的概率。而往往某种类别中某种特征发生的概率更容易知道，再已知某种特征出现的概率和某种类别出现的概率，便可解了。
朴素贝叶斯分类器提供了一种简单的分类方法，但往往我们面对的问题不是“朴素”的，该方法便不再适合了。

4、费舍尔分类器

Fisher线性判别：
Fisher决策的出发点是：把所有的样本都投影到一维空间，使得在投影线上最易于分类。
那什么是最易于分类的投影面呢？我们希望这个投影面是这样的：投影后两类相隔尽可能远，而对同一类的样本又尽可能聚集。
参考：带你搞懂朴素贝叶斯分类算法
 线性分类器之Fisher线性判别

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文档过滤

1、早期的过滤器早期的都是基于规则的分类器，使用事先设计好的一组规则，用于指明某条信息属于垃圾信息。典型的规则有： -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等2、智能分类器a. 特征提取将单词作为文档的特征，其假设：某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词，他们也可以是词组或者短语，或者任何可以归为文档中缺失或者不存在的其他东西。如何选
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。