SPAM、Bayesian算法和中文（一）

最新推荐文章于 2022-11-27 19:37:15 发布

JUSTPUB

最新推荐文章于 2022-11-27 19:37:15 发布

阅读量757

点赞数

文章标签：算法 html解析器防火墙数据库聊天 blog

据说SPAM这词的来源和计算机其实没什么关系，也不是某四个英文单词的缩写。它实际上，来自于饭店中一首完没完了地念叨着“SPAM”的歌，这歌的声音如此之大、歌词如此之烦，以至于就餐者都无法正常对话了。

上面的解释很好地描述了SPAM的作用和危害，然而有趣的是这个词本身却没有一个合适且严格的中文翻译。Wikipedia上有人将其翻译成“垃圾邮件”。但我们知道，除了垃圾邮件外，在计算机的世界里SPAM又可变身为聊天室中的垃圾留言、论坛中的垃圾帖子、IM中的垃圾信息，以及一切可以由用户产生内容（UGC）的地方。

SPAM有不小的危害，但以人类目前的技术，很难做到100%的杜绝SPAM。我曾在“有效地阻止SPAM”一文中提到了表单隐藏域办法，这个方法的优点在于，以极低的实现成本得到了相对而言尚可的过滤效果；但缺点也很明显，就是有些SPAM机器人越来越聪明，它们会用自带的HTML解析器分析代码，并绕过过滤机制。我后来在此基础上，在blog所用的SPAM防火墙上增加了“黑白名单”机制（详见“Lonely Thinker 0.4完成及0.5展望”），实际效果相当不错。但此方法必须由人工干预才行－网站的管理者必须一直投入精力来维护黑白名单的数据库，所以比较麻烦。

下面是上述两种方法的一个实际效果：

2009年1月1日－2009年1月15日，LT内建的SPAM防火墙共拦截SPAM 361 条。其中依靠隐藏表单域（方法一）拦截 49 条，约占 14%；依靠黑名单（方法二）拦截 312 条，约占 86%。平均每天共拦截约24条。（原始log文件下载）

老实说这个结果还是颇出乎我的意料的，因为居然只有49个/次、约14%的机器人被方法一抓到，而86%的机器人都可以绕过方法一！

由此可见，现在的SPAM机器人都相当的智能，而这也正是我们为什么需要一些更棒的方法来抵御SPAM的原因。在下篇中，我想和大家聊聊我最近研究Bayesian算法的一些心得。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

JUSTPUB CSDN认证博客专家 CSDN认证企业博客

码龄13年

626: 原创

1万+: 周排名

64万+: 总排名

172万+: 访问

: 等级

2万+: 积分

8186: 粉丝

30: 获赞

605: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

（转）一线教师的13问——软件工程实践教学 - 构建之法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617009804。
《编程之美》读书笔记(四)：买书折扣问题的贪心解法
Hugh Nash: 原书在解法二中写到首先，对于大于5本的情况，我们不应该考虑按一本付钱的情况，因为没有折扣。然后下面计算6本的三种情况但是分解情况 6=4+2 时对应的折扣计算出错原式LaTeX公式：$$4\times 20\%+2\times 5\%=1.1$$ 应为 $$4\times 20\%+2\times 5\%=0.9$$
《数学之美》第一~四刷勘误表汇总&新增参考文献列表
Ba_hu 回复 Wu_Being: 我也觉得，请问您搞清楚了吗？我也卡这了
数学一般的人适合学习编程吗？
net075: 每次细节复杂，逻辑关系混乱的时候，不是拼耐心把它们全都解决，而是移开目光，朝天仰望，想一想其中有什么最重要的成分，把他们抽出来反复理解，按照重要和次要排序，最终理顺关系，再开始动手
《数学之美》第一~四刷勘误表汇总&新增参考文献列表
Wu_Being: 1. 104页第三行的“B=B×A”有点费解，是不是应该为“B=A×B”？ 2. 107页倒数第四行的10×10×15，按书上该行上面的解释原理是不是应该为10×15？可能我对动态规划理解不够深刻。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。