搜索引擎反作弊之内容作弊

原创 2012年03月24日 08:53:04

                   本文节选自《这就是搜索引擎:核心技术详解》第八章


     网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验。而搜索引擎为了保证排名的公正性,也需要对作弊行为进行识别和处罚。所谓“道高一尺,魔高一丈”,只要这种经济利益存在,作弊与反作弊会一直作为搜索引擎领域的斗争而存在下去。

     本章主要讲解目前常见的一些互联网网页作弊方法以及搜索引擎公司对应的反制措施。从大的分类来说,比较常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊以及最近几年兴起的Web2.0作弊方法。学术界以及搜索引擎公司也有针对性的提出了各种反作弊算法,本章介绍了比较典型的各类反作弊算法思路,并抽象出了几种反作弊算法的框架。

 

 

8.1 内容作弊

    内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算,内容作弊主要针对搜索引擎排序算法中的内容相似性计算部分。通过故意加大目标词词频,或者在网页重要位置引入与网页内容无关的单词来影响搜索结果排名。

 

 8.1.1常见内容作弊手段

比较常见的内容作弊方式包括:

1.      关键词重复  

       对于作弊者关心的目标关键词,大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子,关键词重复本质上是通过增高目标关键词的词频来影响搜索引擎内容相似性排名。

2.      无关查询词作弊

        为了能够尽可能多吸引搜索流量,作弊者在页面内容中增加很多和页面主题无关的关键词,这本质上也是一种词频作弊,即将原先为0的单词词频增加到非0词频,以此吸引更多搜索引擎流量。

       比如有的作弊者在网页的末端以不可见的方式加入一堆单词词表。也有作弊者在正文内容插入某些热门查询词。甚至有些页面内容是靠机器完全随机生成或者利用其他网页的页面内容片段随机拼凑而成的。

3.      图片alt标签文本作弊

alt标签原本是作为图片描述信息来使用的,一般不会在HTML页面显示,除非用户将鼠标放在图片上,但是搜索引擎会利用这个信息,所以有些作弊者将alt的内容以作弊词汇来填充,达到吸引更多搜索流量的目的。

4.      网页标题作弊

        网页标题作为描述网页内容的综述性信息,对于判断一个网页所讲述的主题是非常重要的启发因素。所以搜索引擎在计算相似性得分时,往往会增加标题词汇的得分权重。作弊者利用这一点,将与网页主题无关的目标词重复放置在标题位置来获得好的排名。

5.      网页重要标签作弊

        网页不像普通格式的文本,是带有HTML标签的,而有些HTML标签代表了强调内容重要性的含义,比如加粗标记<b> </b>,段落标题<h> </h>,字体大小标记等。

        搜索引擎一般会利用这些信息进行排序,因为这些标记因素能够更好的体现网页的内容所表现的主题信息。作弊者通过在这些重要位置插入作弊关键词也能影响搜索引擎排名结果。

6.      网页元信息作弊

       网页元信息比如网页内容描述区(meta description)和网页内容关键词区(meta keyword)是供制作网页的人对网页主题信息进行简短描述的,同以上情况类似,作弊者往往也会通过在其中插入作弊关键词来影响网页排名。

      通过以上几种常见作弊手段的描述,我们可以看出,作弊者的作弊意图主要有以下几类:

1.      增加目标作弊词词频来影响排名;

2.      增加主题无关内容或者热门查询吸引流量;

3.      关键位置插入目标作弊词影响排名;

 

8.1.2 内容农场(Content Farm)

    Google在2011年2月份高调宣布针对低质量网页内容调整排序算法,据报道此算法影响了大约11.8%的网页排名,而这项调整措施是专门针对以Demand Media网站为代表的“内容农场”作弊手法的。

    图8-1是内容农场运作模式的示意图,内容农场运营者廉价雇佣大量自由职业者,支持他们付费写作,但是写作内容普遍质量低下,很多文章是通过拷贝稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等情况,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,会被吸引进入内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。


                                                           

图8-1 内容农场运营模式


与传统的内容作弊方式比,内容农场不采用机器拼接内容等机械方式,而是雇佣人员写作,但是由于写作者素质等原因决定了其发布内容质量低下,这种作弊方式搜索引擎往往难以给出是否作弊明确的界定,但是又严重影响搜索结果质量,所以是一种很难处理的作弊手法。

 


版权声明:

相关文章推荐

[3]Python学习笔记---写一个Python程序把CSDN专栏的所有文章另存为本地网页

了解和学习了Python已经有一小段时间了,是应该写一个程序出来练练手了。 我们知道Python里面有很多的第三方库,而且也支持面向对象的编程思想。作为一个从事了Java编码工作快10年的程序员来说,...

深度学习解决机器阅读理解任务的研究进展

本文是对深度学习在机器阅读理解领域最近进展的综述文章。

ASP.NET获取IP与MAC地址的方法

ASP.NET获取IP与MAC地址的方法 dugupiaoyun @ 2007-06-07 16:43 | C# ASP.NET获取IP与MAC地址的方法view plaincopy to clipb...

Tag功能介绍—我们为什么打Tag?

想必CSDN的新老用户在访问CSDN网站的博客、社区、下载等服务时,经常能够看到“请您添加标签”的提示。也许很多人对此抱有疑问:加标签有什么用?在这里我们为您集中解答一下疑惑。 Tag标签是什么? ...

ReactNavtive框架教程(1)

原文:http://www.raywenderlich.com/99473/introducing-react-native-building-apps-javascript 注意:所有图片放在了百度...
  • kmyhy
  • kmyhy
  • 2015-06-22 12:45
  • 3326

Hibernate的延迟加载

 ----------------------------------------------  一 ------------------------------------------- ...

【Java高级开发工程师】近一个月的面试总结

时隔两年,再一次的面临离职找工作,这一次换工作有些许的不舍,也有些许的无奈。个人所在的技术团队不错,两年时间成长了很多,也很不舍这个团队。但是,由于公司的某些原因和对于自身未来发展的综合考虑,又不得不...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)