搜索引擎web spam类型及防治策略(version 0.9)

原创 2018年04月16日 18:00:25

/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/

搜索引擎web spam类型及防治策略(version 0.9)

中科院软件所 张俊林

2005年7月

搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容作弊,链接作弊,信息隐藏三个方面来进行. 往页面加入大量关键词,以对用户不可见的颜色设置字体.这样用户使用不可见的字符串搜索就可能搜索到无关的作弊网页.这种方式主要是基于内容的;分析Pagerank等搜索引擎使用的链接分析技术,构造很多其它网页,并在网页指向作弊网页,这样作弊网页的入度大量增加,导致链接分析失效,排名增高.这种方式主要是基于链接的.

Web spam对于搜索引擎有很大的危害:一方面降低搜索引擎的结果有效性.大量不相关页面占据重要排名位置.另外一个方面, 增加搜索引擎的无效索引,.这样对于每个查询都会耗费不必要的时间来处理这些垃圾索引.

Web spam 和email spam类似,对于某个网页是否真正的spam网页的判断多少是有主观因素的,这也是造成难以防治该类问题的一个核心难点.而目前大多数anti-spam技术都基于以下两个假设:假设一: 非作弊网站一般不会有指向作弊网站的链接(这个假设是有漏洞的,比如honey pot作弊方式,但是大多数情况下是成立的).假设二. 作弊网站往往会增加指向非作弊网站的链接.

本文下面的内容讲述目前常用的一些作弊方法以及比较常见的防治策略.首先需要定义几个概念:

概念一.目标网页----就是作弊者采取一系列措施希望该网页能够在搜索引擎排名中得到比其应该得到的排名高的网页.

概念二:辅助排名网页---作弊者为了提高某个或者某些网页的排名,需要引入大量的其它网页,这些网页的目的是帮助提高目标网页的排名.

一. 搜索引擎spam方法

(1) 内容作弊.目前搜索引擎对于内容相关的判断基本上是基于信息检索领域的TF*IDF模式.TF指的是一个单词在文章中出现的频度,IDF指的是有多少个不同的文章中出现过该词汇.一般来说TF越大,分值越高.IDF越小分值越高,也就是说越少的文章出现过这个词汇,那么IDF分值越高.本质上IDF是衡量词汇权重的一个经典方法.对于作弊者来说IDF基本上是不可控制的,但是TF却是可以操控的.比如通过大量复制作弊词汇并隐藏其可见性可以提高TF值,从而增加搜索引擎排名.另外,搜索引擎对于内容权重的衡量还考虑词汇出现位置,通常考虑的词汇位置包括:文本正文,文本标题,meta tag,URL链接文字以及URL文字.一般文本标题,URL链接文字以及URL文字的权重会比较高.所以作弊者通过在文章标题或者URL链接文字增加作弊词汇来提高排名.这里的URL链接文字不是目标页面包含的链接的文字,而是指向目标页面的链接上的文字.因为一般认为指向目标页面的链接文字是一个摘要性的描述,其准确性比较高,所以权重设定比较大.URL文字指的是在URL中加入作弊词汇比如:www.buy-computer-cheaper.com/not-expensive.htm.内容作弊一般采取以下方式:内容大量重复,提高TF值;在页面加入大量与主题无关的作弊词汇,这样搜索者输入任何作弊词汇都有可能搜索到作弊页面.在有效信息中隐藏作弊词汇,比如将一篇新闻报道文章句子中插入作弊词汇,这种情况比较难以发现.内容拼接,从不同的信息来源摘取不同的句子拼凑成正文,这样只要查询出现句子包含单词就会检索到这篇文章.

(2) Honey pot:作弊网页作者发布有价值信息比如介绍某项技术的技术文章,但是在发布的信息里面隐含指向作弊页面的隐藏链接,这样通过网页本身内容的价值来诱导其它网站增加指向该页面的链接从而间接增加作弊页面的排名(比如本文标题附近的联接http://sonata.iscas.ac.cn/zhjl 以及此处的链接引用,呵呵).比如往blog站点,BBS站点,留言簿或者wiki等可以任意发言的站点增加评论.在发表的评论里面增加指向目标页面的链接,这样会间接增加目标页面的pagerank排名.根据发表评论类型可以分为以下两种:一种是直接发广告性质的与主题无关评论,这个我们经常在BBS或者留言版上看到.一种是评论与主题相关,但是在评论中隐藏无法看到的链接信息.这种情况一般比较难以发现.

(3) 组织spam farm.作弊者建立若干网站,通过精心构建网页之间的链接关系来通过大量辅助页面提高目标页面的排名.

(4) CLOAKING.一般搜索引擎的页面抓取器会定期抓取站点页面,同时会首先访问robot.txt协定文件.作弊者通过在robots.txt做手脚或者记住主要搜索引擎页面抓取器的IP地址来识别搜索引擎,识别之后诱导搜索引擎索引的内容和网站本身的内容不同.

(5) 购买过期域名.过期域名存在大量指向这个域名的链接信息.作弊者通过购买过期域名来获得这些链接信息来提高排名.

(6) 将作弊网页提交到雅虎等目录站点.熟练的作弊者可以通过欺骗目录编辑,使得作弊网页被目录站点收录,一般目录站点的排名很高,所以这样可以有效提高目标页面的排名.

(7) 在目标页面中增加指向重要或者著名网站的链接.这样有可能欺骗搜索引擎目标页面是高质量的索引页面.

(8) 多个域名DNS解析到同一IP地址.因为搜索引擎针对同一域名内链接做过调整,所以作弊者申请多个不同域名但是映射到同一IP.这样来欺骗搜索引擎是不同站点的链接.

(9) 通过页面自动重定向来隐藏作弊页面.

(10) 隐藏文字或者链接.通过设定文字或者链接的颜色为背景色来使得这些作弊文字或者链接对于读者不可见.

(11) 交换链接.作弊者合作交换链接来增加排名.

对于spam farm来说,作弊者通过以下方式可以达到最优作弊:

(1) 单个作弊者能够产生最高pagerank值的link spam方法:一个目标网页(希望排名提升),K个辅助排名网页,K个网页都有且只有一个链接指向目标网页,同样地目标网页也有每个辅助排名网页的一个链接.可以证明这种模式是目标网页通过作弊获得的最大PAGERANK值.同时这个结构也保证只要有一个页面被索引则整个spam farm都能够被索引.只有这样,辅助排名网页采能起作用..对于这种方式可以通过发现这种link farm模式特点的方法来识别可能的作弊网页.

(2) 两个作弊者协作作弊.多个作弊者通过互相链接增加排名.最简单的情况是两个拥有spam farm的作弊者合作,考虑以下几种作弊方式:

a.两人的所有辅助排名网页都同时增加指向对方的目标网页链接.此时两个作弊者的目标网页的pagerank值相等, 假设没有建立联系前各自的值为p和q.作弊后其值等于(p+q)/2 .显然与未交换链接时候相比,原先分值高的比较吃亏,会将一部分分值转移到对方.

b.两人的目标网页互相指向.此时情况与a相同,不过两者建立链接数目减少.减少作弊者人工维护精力.

c.两人的目标网页互相指向,但是将每人目标网页所有指向辅助排名网页的链接去处.此时两者的pagerank分值都有所增加.

(3)对于多个作弊者的有效合作作弊方式: a. 多个目标网页链接形成环形. b.多个目标网页链接形成全链接. 此时对于每个作弊者来说pagerank值都得到提高,都比未合作前的最高值高.

二. anti-spam方法

(1) 人工方式

精度高,但是人工耗费太大,所以不现实.

(2) 半人工方式

半人工方式应该是目前使用比较多的方法,专业的搜索引擎技术公司里面往往会有一批所谓的anti-spam专家来对这些技术进行研究.目前比较通用的一个半人工防治策略如下:

1. 从所有站点随机选择若干站点.比如随机选择2000个站点.(也可以有其它类似的优化策略,比如选择知名度高的网站或者YAHOO等收录的网站作为优良网站的基点)

2. 从2000个站点里面人工判断哪些是优良的网站

3. 链接分析.基本假设是优良网站指向的网站也是优良的.此时可以采取不同的策略,比如优良网站经过K个链接所指向的都认为是优良的.也可以引入衰减因素,离初始优良网站越远的网站其优良性越小.

4. 对遍历过的网站优良性能做评价.此评价作为判断是否作弊网页的依据.

(3) 自动方式

减少人工耗费,是anti-spam研究的目标和方向,但是目前技术对于有些作弊方式很难达到完全自动识别.目前技术主要还是半人工的方式 . 可以自动实现的方式包括:

1. 基于内容的,比如针对标题作弊,如果发现正文内容出现标题文字比例失调,比例太高或者没有出现过,则认为可能是作弊网页.

2. 对于页面内容难以形成主题的页面也很有可能是作弊页面.

3. 针对链接作弊,如果发现可能的spam farm结构或者不正常的大量网站内部相互链接,则判定可能是作弊网站

4. .对于机器自动生成的作弊页面进行特征分析和自动发现.比如机器生成的链接往往很长,包含很多数字和连接符号等.

5. 大量不同域名映射到同一IP地址很有可能是作弊网站.

6 .发现网页的入度,根据分布规律,极少数的网页有非常大量的联入,所以这些大量联入页面如果不是知名网站则很可能是作弊网站.

Web anti-spam领域还是一个比较新的研究领域,经济利益不断驱动人们通过种种”优化”策略来提高网页的排名.所以web spam和anti spam是一个不断学习不断斗争的过程.对此有兴趣的朋友可以和我联系(junlin01 AT iscas dot cn )共同学习共同提高这个方面的技术知识.

标准建模语言UML及其支持环境(六)

前五期所述主要内容如下:一、标准建模语言UML概述二、标准建模语言UML的静态建模机制三、标准建模语言UML的动态建模机制四、标准建模语言UML的支持环境1. 过程工程的基本要点2. UML柔性软件开...
  • zdg
  • zdg
  • 2000-12-18 18:26:00
  • 3061

搜索引擎web spam类型及防治策略(version 0.9)

/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/ 搜索引擎web spam类型及防治策略(version 0.9) 中科院软件所 张俊林 url:http...
  • malefactor
  • malefactor
  • 2005-07-27 09:23:00
  • 4163

反spam与spam间的较量 -

第一轮反击是,在排序时更多地依赖网页正文而不是meta tag。但spam们以进为退,在正文中大量使用与网页背景相同颜色的关键字,在图片注释文字中塞进关键字,在网页代码加入“看不见的注释”。搜索引擎又...
  • zfive5
  • zfive5
  • 2006-03-20 09:06:00
  • 827

搜索引擎与spam

搜索引擎与spam 亂世用重典,搜索引擎在与spam的長期戰爭中總是處于不利地位(這很容易理解,搜索引擎公司真正考慮搜索結果相關性和排序的只有几個人,而互聯网上整天琢磨怎么對付搜索引擎的有几万几十万w...
  • bjbs_270
  • bjbs_270
  • 2004-10-07 20:29:00
  • 1120

Web应用安全威胁与防治——基于OWASP Top 10与ESAPI

http://product.china-pub.com/3021666 http://web2hack.org/book/   http://product.china-pub.com/302...
  • cnbird2008
  • cnbird2008
  • 2012-12-26 10:16:48
  • 2326

搜索引擎—网络爬虫抓取策略

爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。 网页的重要性,评判标准不同,大部分采用...
  • y396397735
  • y396397735
  • 2015-11-13 13:59:36
  • 2323

浅析Windows RootKit威胁及防治策略

  • 2010年03月04日 12:36
  • 1.16MB
  • 下载

我眼中的搜索引擎的不足及改进策略

大家每天都用SE,但是SE还有很多不算很到位的问题,大家来讨论一下吧。 1、去重做的很不好。     比如检索[编译Android内核]这个主题,其实,一共很不同的结果只有2~3种(仅限前10页),但...
  • x50573750
  • x50573750
  • 2011-03-10 19:18:00
  • 911

Web搜索引擎工作原理和体系结构

1、Web搜索引擎的基本要求搜索引擎是一个网络应用软件系统,如下图所示,对它有如下基本要求。 能够接受用户通过浏览器提交的查询词或者短语,记作q,例如“大数据”,“Spark”等等。 在一个可...
  • y396397735
  • y396397735
  • 2015-11-03 15:51:01
  • 1009

java web项目实战大全源码搜索引擎

  • 2013年01月14日 20:53
  • 289KB
  • 下载
收藏助手
不良信息举报
您举报文章:搜索引擎web spam类型及防治策略(version 0.9)
举报原因:
原因补充:

(最多只允许输入30个字)