URL标准化,英文全称为URL Canonicalize。
什么是URL标准化
通俗的说,就是将你的页面URL唯一化。导致页面URL多样化的原因有很多,主要包括包含WWW及不含WWW,动态页面及伪静态技术,302的临时重定向,一些JS或者Meta跳转等等。这些因素最基础的影响就是让搜索引擎无所适从,到底哪个URL才是你要使用的?所以就产生了URL标准化的概念。
另一方面,一些经常被认为是相同的URL,特别针对网站主页,比如
* www.kuqin.com
* kuqin.com/
* www.kuqin.com/index.html
* kuqin.com/home.asp
在常规状态下,这些地址都代表着网站的主页,但是从技术角度来说,这些URLs是完全不想关的一些地址,因为你完全可以通过服务器端的设置将这些地址返回不同的内容。Google在索引的时候,必须选择一个具有代表性的URL来呈现给用户,这个选择的过程,就称为“URL标准化”。
Google如何挑选标准化的URL
在没有做特殊设置的情况下,Google会根据外链的数量来确定标准化的URL,也就是哪个地址被外链引用的次数最多,哪个地址就是标准化的URL。所以我们在平时做外链的时候,就要确保地址的唯一性,不要有的地方用 “kuqin.com”,而有的地方又用 “www.kuqin.com”。统一你的外链地址,让Googel能够快速的确认你的标准化URL,以便给予合适的排名。
同样,我们在走内链的时候,也要考虑到标准化URL的问题!
如何进行URL标准化
首先我们要确定URL标准化设计的方面,主要是带WWW与不带WWW的地址,以及伪静态造成的重复收录等问题,我们可以采用不同的方式来解决这个问题。
1:301永久重定向
如果我们决定采用带WWW的地址为唯一的地址,那么我们可以使用301永久重定向代码
RewriteEngine on
rewritecond %{http_host} ^kuqin.com [nc]
rewriterule ^(.*)$ http://www.kuqin.com/$1 [r=301,nc]
将所有不带WWW的地址进行重定向!
2:采用Canonical标签
Canonical标签经常会被用在伪静态地址上。您可以查看本站所有页面的源代码,在Head部分都有一个“link rel=’canonical’”的标签,来标明这个页面的标准化地址,以便让Google进行确认,防止重复页面的收录。百度目前不支持该标签!
3:采用Robot.txt文件
由于百度不支持Canonical标签,我们可以结合使用robot文件来禁止搜索引擎收录部分格式的页面,以防止伪静态情况下的重复收录!比如我们用wordpress搭建博客时,采用了伪静态技术,另外也不希望一些管理文件被收录,则常见的wordpress博客Robots.txt文件写法为
User-agent: * –所有搜索引擎蜘蛛
Disallow: /wp-*/ –不收录以WP-开头的文件夹
Disallow: */feed –不收录feed(包括单页,整站,评论的feed)
Disallow: */trackback –不收录引用
Disallow: /*?* –不收录动态页