直接藐视Google的内容复制

   前些日子,在冰天雪地的芝加哥举行的搜索引擎战略大会上,很多Google Fans询问内容复制的问题。对于这个话题来说,它只存在一些非常细小的差别而且特别容易让人混淆,所以有的时候,我们不得不为此去直接处理索引结果。
  什么是内容复制?
  内容复制通常是指同一域名或者跨域名之间的大段内容完全一样或者非常近似。在大部分时间内,在本质上我们认为它是无意的或者不坏恶意的:比如正规的论坛、专为手机服务的网页等等,他们总会产生不同的URL和糟糕至极的链接。在一些案例中,跨域名的内容复制要么企图欺骗搜索引擎而获得好的排名,要么期望获得更多的流量和长尾查询。
  什么不是内容复制?
  尽管我们提供了本文的另一个译本、但算法并不会将用英语和西班牙语写的同样内容的文章作为内容复制。简单的说,不必担心偶尔的片断使用(引用或者其他)会被标记为内容复制。
  为什么Google如此关心内容复制?
  当用户进行搜索的时候,他们强烈的希望看到同一内容的不同视角的作品。相对而言,他们会尽力去避免察看内容明显一样的结果。另外,当搜索引擎用一个繁复的Url顶替站长们创作的哪个的时候,站长们会有口难言,异常痛苦。
  对于内容复制,Google能做什么?
  在我们的抓取周期内,当保存搜索结果的时候,我们尽力去索引和显示不同内容的网页。这种过滤意味着,例如,你的网站中有一个正常的文章版本 ("regular"),也有一个复制版本("printer"), 并且你的网站没有设置robots.txt 屏蔽或者meta标签的noindex属性,搜索引擎只会选择其中的一个而不是全部。在我们发现的内容复制的案例中,基本不再显示这些故意欺骗排名和欺骗用户的内容,我们也会适当的调整卷入内容复制的网站的索引和排名。然而,我们更注重过滤而不是调整排名... 所以在大量的主流案例中,站长们会发现自己的网站收录数比预期的要少。
  站长们怎样提前注意内容复制的产生?
  1.适当的屏蔽:与其让算法自己决定,不如主动的引导搜索蜘蛛到最好的内容上去。例如,如果你不想我们索引站点内的复制内容,那么在robots.txt采用正则表达式或者disallow命令来屏蔽这些目录。
  2.使用301转向:如果你重构了网站,那么在.htaccess文件中采用301重定向来引导用户、Googlebot和其他的蜘蛛。
  3.保持一致:尽力让你的内部链接统一一致,不要采用/page、/page/、/page/index.htm 这样不同的链接。
  4.使用顶级域名(TLD Top Level Domain):这会帮助我们保存最恰当的文件版本,尤其在处理不同国家主体的内容上。相对于/de 或者de.example.com, 使用.de 的域名会让搜索引擎知道这是德文版本的内容。
  5.当心内容共享:如果你将自己的内容放到其他的网站上,一定要包含指向原文的链接。即便如此,对于每个既定搜索,基于向用户展示最适当的版本(非屏蔽)原则,我们也不能保证显示出来的是原文。
  6.使用webmaster工具中的域名指定属性:如果其他的网站使用www版本的和非www版本的URL来链接你,你应该让搜索引擎了解你希望搜索引擎抓取的域名地址。
  7.减少重复文本:例如,使用指向详细细节的概要描述链接来代替每个底页冗长的使用协议。
  8.避免内容碎片:用户不希望看到空空的网页,所以尽可能的避免使用占位符。不要未经过任何审核就发布内容,不要建立不存在的内容列表等等,这样用户和搜索引擎就不会看到根本不存在的内容。
  9.了解你的CMS系统:确保相关人员非常熟悉发布网站内容的流程,尤其是包含了博客、论坛或者相关系统的CMS软件,他们常常以多种形式来显示相同的内容。
  10.不要过分忧虑,积极一些:如果你发现了内容复制并且想阻止它,最好向DMCA声明内容版权,这样我们就会处理这些流氓网站.
  简单的说,对于内容复制来说,最常用的方法就是预防性的维护,这会帮助搜索引擎向用户提供单一的和相关的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值