我们在做网站seo优化过程中,会希望站内的某些页面不被搜索引擎收录或者限制蜘蛛抓取某些特定网站链接,因此需要用到nofollow和noindex标签。
nofollow和noindex的用法
nofollow的意思是“禁止抓取该页面”,有如下两种用法
-
作为robots标签放在<head>和</head>之间,格式为<meta name=”robots” content=”nofollow”>,第一种用法的作用是告诉搜索引擎不要抓取该页面所有的链接。
-
放在链接中<a rel=”nofollow” href=”www.example.com”>,这种用户的作用是告诉搜索引擎不要抓取这条链接。
noindex的意思是“禁止收录该页面,noindex只有一种用法,那就是作为robots标签放在<head>和</head>之间,格式为<meta name=”robots” content=”noindex”>,作用是告诉搜索引擎不要收录该页面,如果已经收录了该页面,那么删除已经收录的页面。
Noindex、nofollow标签用法延伸
Index命令:告诉搜索引擎允许抓取该页面。(可以不设置,默认抓取)
Follow命令:告诉搜索引擎可以在这个页面上抓取链接并继续访问该页面其他链接
上述四个指令有着如下的组合使用方式:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
组合命令使用场景:
-
想要一些高质量页面被收录并且允许蜘蛛抓取该页面上的其他链接,则使用<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:
-
想要某个高质量的页面被收录,但不希望蜘蛛通过该页面爬取其他链接(比如较大量的站外链接等)。则使用<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
-
不想某些低质量的UGC页面被搜索引擎收录,但希望蜘蛛通过该页面爬取到其他的链接,则使用<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
-
不想某个页面被收录和抓取,则使用<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
5.最后一个场景就是论坛类站点比较典型的在URL进行抓取限制<a rel=”nofollow” href=”www.example.com” >
另外,robots里的nofollow和noindex也可以对指定搜索引擎爬虫进行限制,比如<META NAME="BAIDU SPIDER" CONTENT="NOINDEX,NOFOLLOW">的意思就是限制百度蜘蛛的抓取和收录。