Antispam，反垃圾，反作弊

最新推荐文章于 2022-12-08 10:14:13 发布

tattarrattat

最新推荐文章于 2022-12-08 10:14:13 发布

阅读量1.9k

点赞数

分类专栏：自然语言处理文章标签：搜索引擎百度优化 google internet 语言

本文链接：https://blog.csdn.net/lyflower/article/details/1628381

版权

自然语言处理专栏收录该内容

19 篇文章 0 订阅

订阅专栏

关键词：搜索引擎优化反作弊 antispam

Antispam 就是反垃圾、反作弊的意思，spam的意思是：兜售信息[邮件，广告，新闻，文章]，非索要信息。与垃圾邮件（junk mail）同义。Anti就是反对、去除的意思。这个词汇多用于反垃圾邮件。也用于形容搜索引擎反垃圾信息。Spam和antispam在搜索引擎诞生之日起就开始了无休止的搏杀。因为有巨大的商业利益掺杂其中。

2003年上半年之前中文搜索引擎基本上没有大规模的搜索引擎作弊。2002年的时候百度的讨论区有搜索引擎爱好者讨论搜索技巧、搜索引擎相关知识会讨论到优化、友好，但是范围非常小，气氛主体是搜索技巧。也有部分人和公司做搜索引擎优化的，但是仅仅是针对某几个词汇做链接以获取在google的排名收取企业费用。当时我们还讨论过作弊和友好的界限定义很难区分的问题，现在想想，当时这种问题对中国人来说根本没有必要讨论。

2003下半年中文搜索引擎作弊大面积泛滥，一时间“google、百度被爆奸了”甚至有人可以包揽某类关键词前几十页的所有条目，有人声称可以将任何词汇做到百度的前几名……，到2005年已经是全民作弊了。

这时候，antispam成为中文搜索引擎的重点工作之一了。搜索引擎反作弊从开始以来一直都是处于被动防守状态，这是因为必须有人作弊，才能反作弊，几乎不可能预知作弊的新方式来预先antispam。而且也不存在破窗理论，因为一个网站作弊在某搜索引擎无效，但是会在其它搜索引擎有效。长期无效，但是短期有效。

Antispam的目的是为了改善用户体验，丢弃垃圾信息。垃圾信息包括重复无穷次的信息和没有任何价值的信息，internet本来就存在很多的垃圾页面和垃圾信息和重复信息，再加上有很多人为的制作垃圾信息，那搜索引擎反垃圾就凸现出重要性了。

反作弊其实不难，搜索引擎能管理数十亿的信息，那管理这么点垃圾信息还不是很轻松的事情？因为作弊具有共性，抓住这些共性就可以解决一类问题，一类问题一类问题的解决，作弊的影响就可以降到最低。极大程度的增加作弊的成本和风险。

方法大致可以如下：建立每个网页和网站的spam系数，这个系数和这些参数相关：
1.建立常用spam词表，分级别，分类。
2.通过常用spam词表分析相关词汇重复频率、密度、位置、分布情况。设定多个阀值，每个阀值进行处理不同的处理。
3.链接数量、质量、锚文本分析、spam链接工厂分析，进行spam判断。
4.桥页，跳转页面、鬼文等各种常用作弊手法分析。
5.搜索结果页面判断
6.重复信息判断……
当spam系数超过某个阀值的时候这个网页就被删除或者降权、当网站spam系数（网站spam系数来源于网站的页面spam系数加权）达到某个阀值的时候这个网站就进入spam管理人员的待处理信息列表中，spam管理人员进行人工判断，如果确实作弊那就把权值降到0%，或者直接删除。
如果更深入一些可以再做：
1.更深入的重复信息判断（重复信息的识别，可以识别到段，甚至句。对互联网上重复了1000次的spam的信息降低权值索引或不索引）
2.基于视觉的网页块分析，对网页视觉中心的内容进行加权，非视觉中心的内容降权或者根据spam系数非视觉中心的内容不索引入库，
3.简单的语法分析网页的正文内容是否符合正常的自然语言描述
4.统计用户的点击行为、浏览行为进行分析。统计网站各类词汇的排名情况，找出不正常的网站……
5.结构化信息抽取，针对链接的描述语言作为锚文本，同时降低锚文本的权值。（在垂直搜索引擎中更有效）
6.其它一些技术来凸出优质信息。

还存在一些问题：
1.比如我的文章在我的小站发布了，搜索引擎去重后留下的是其它网站转载的信息……（百度把我这个页面去重掉了20060121）
2.反作弊后有很多域名不存在了，但是有用户会需要这些网站？如何解决这个用户体验？建一个spam网页索引？
3.最大的问题是误判很正常，也很多，那误判怎么办？作弊网站的恢复机制？
还有就是spam的标准问题可能在不久的将来会成为一个焦点。
4.本文是随笔，会不断更新，如转载请保留原文链接，谢谢！
5.这篇文章我写了两次，感觉现在这个版本没有第一个版本的好。写两次是因为我在表单直接填写，结果session过期了，导致数据丢失，浪费了我一个小时。
6.按照spam的定义，百度的竞价排名也是spam。广告在恰当的时候是搜索引擎内容的补充，那有没有可能利用垃圾页面？

tattarrattat

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Antispam，反垃圾，反作弊

关键词：搜索引擎优化反作弊 antispamAntispam 就是反垃圾、反作弊的意思，spam的意思是：兜售信息[邮件，广告，新闻，文章]，非索要信息。与垃圾邮件（junk mail）同义。Anti就是反对、去除的意思。这个词汇多用于反垃圾邮件。也用于形容搜索引擎反垃圾信息。Spam和antispam在搜索引擎诞生之日起就开始了无休止的搏杀。因为有巨大的商业利益掺杂其中。
复制链接

扫一扫

专栏目录