【数学之美 系列十七】 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

转载 2007年10月05日 04:19:00
2006年11月28日 上午 03:18:00
Google 研究员 吴军

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。

搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重 复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些 关键词。其实,这种做法很容易被搜索引擎发现并纠正。

在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自 己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮 别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再 以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了。

几年前,我加入Google做的第一件事就是消除网络作弊。在Google最早发现搜索引擎作弊的是Matt Cutts,他在我加入Google前几个 月开始研究这个问题,后来,辛格,马丁和我先后加入进来。我们经过几个月的努力,清除了一半的作弊者。(当然,以后抓作弊的效率就不会有这么高了。)其中 一部分网站从此"痛改前非",但是还是有很多网站换一种作弊方法继续作弊,因此,抓作弊成了一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决 作弊问题的方法,但是,Google基本做到了对于任何已知的作弊方法,在一定时间内发现并清除它,从而总是将作弊的网站的数量控制在一个很小的比例范 围。

抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可 能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的 噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功能。消除噪音的流程可以概括如下:

在图中,原始的信号混入了噪音,在数学上相当于两个信号做卷积。噪音消除的过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一,汽车发动机 的频率是固定的,第二,这个频率的噪音重复出现,只要采集几秒钟的信号进行处理就能做到。从广义上讲,只要噪音不是完全随机的、并且前后有相关性,就可以 检测到并且消除。(事实上,完全随机不相关的高斯白噪音是很难消除的。)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是 随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。因此,搞搜索引擎排名算法的人,可以在搜集一段时间的 作弊信息后,将作弊者抓出来,还原原有的排名。当然这个过程需要时间,就如同采集汽车发动机噪音需要时间一样,在这段时间内,作弊者可能会尝到些甜头。因 此,有些人看到自己的网站经过所谓的优化(其实是作弊),排名在短期内靠前了,以为这种所谓的优化是有效的。但是,不久就会发现排名掉下去了很多。这倒不 是搜索引擎以前宽容,现在严厉了,而是说明抓作弊需要一定的时间,以前只是还没有检测到这些作弊的网站而已。

还要强调一点,Google抓作弊和恢复网站原有排名的过程完全是自动的(并没有个人的好恶),就如同手机消除噪音是自动的一样。一个网站要想长期排名靠前,就需要把内容做好,同时要和那些作弊网站划清界限。


原文链接:http://googlechinablog.com/2006/11/search-engine-anti-spam.html  

相关文章推荐

#One paper per week# Search Engine Click Spam Detection Based on Bipartite Graph Propagation

论文题目:Search Engine Click Spam Detection Based on Bipartite Graph Propagation 论文地址:http://dl.acm.org/...

《数学之美》之谈谈搜索引擎反作弊与权威性问题

《数学之美》之谈谈搜索引擎反作弊与权威性问题 声明:以下内容或摘自或总结自吴军老师的《数学之美》,由于所理解能力有限,本文并不对内容的科学性进行考证,但求能够从中略窥知一二,则已经是大有裨益了。而...

Create Your Own Search Engine with Python 用python创建你自己的搜索引擎(三)

Create Your Own Search Engine with Python   用python创建你自己的搜索引擎(三)  上一篇是什么来着?想想,对了,工作原理和基本算法简介,这...

用Python和OpenCV创建一个图片搜索引擎的完整指南 The complete guide to building an image search engine with Python and

Let’s face it. Trying to search for images based on text and tags sucks. Whether you are tagging ...

如何实现一个搜索引擎(3):tf-idf权重 How to Implement a Search Engine Part 3: Ranking tf-idf

Overview We have come to the third part of our implementing a search engine project, ranking. The f...

Create Your Own Search Engine with Python 用python创建你自己的搜索引擎(二)

Create Your Own Search Engine with Python  用python创建你自己的搜索引擎(二) 接上一篇,我自己分的部分,全挤一篇太长,本部分主要介绍工作原理和简单...

如何实现一个搜索引擎(1):构建索引 How to Implement a Search Engine Part 1: Create Index

Overview Ok, let’s start! We will implement a search engine that answers queries on Wikipedia artic...

UCD Search Engine Project summary

Split the string by BOOLEAN keywords: Example: split string by "AND" using System; namespace st...

Introduction to SEO Search Engine Optimisation practices

/*By Jiangong SUN*/ Search Engine Optimisation(SEO) is a very important concept for page ranking in...

Search Engine Reputation Management

Search Engine Reputation Management, also known as SERM. Search engine reputation management strat...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)