大多数情况下,我们都会使用robots.txt文件对搜索引擎蜘蛛的抓取行为进行限制,这是一种非常规范的做法。除此之外,我们还可以通过网页头部的META标签禁止搜索引擎抓取,这种方法的优点是只针对当前网页,操作起来比较灵活。只是针对百度搜索,不知道管用不,记录下来,试试
具体的代码非常简单,只需要在你的网页和之间插入一句:
<meta name="robots" content="属性值" />
其中的属性值可以按照要求从下面四选一:
1. CONTENT="INDEX,FOLLOW:可以抓取本页,而且可以顺着本页继续索引别的链接
2. CONTENT="NOINDEX,FOLLOW:不许抓取本页,但是可以顺着本页抓取索引别的链接
3. CONTENT="INDEX,NOFOLLOW:可以抓取本页,但是不许顺着本页抓取索引别的链接
4. CONTENT="NOINDEX,NOFOLLOW:不许抓取本页,也不许顺着本页抓取索引别的链接。
此外,还可以使用此句代码禁止搜索引擎为你的网页建立快照,方法是在属性值里面增加一个noarchive即可,因此,完整的代码示例演示如下:
<meta name="robots" content="NOINDEX,FOLLOW,noarchive" />
意思即禁止所有搜索引擎抓取本页面,但是可以通过本页面的链接去抓取别的页面,同时还禁止为本页面建立网页快照。
如果你只是想禁止某一个搜索引擎,那写非常简单,只需要将代码中的 robots 替换成对应搜索引擎的代号即可,如下:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
有时候网站在大规模改版或者调整内容结构或者其他时候会需要让se暂时不收录他的网站内容,那么遇到这样的情况我们该怎么办呢?别着急,北京seo帮你解决:
如果你想禁止某个搜索引擎(百度或者Google)访问你的站,或者不想你的网站在某个搜索引擎里边显示,或许下边的代码可以帮助你达到效果!
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 <HEAD> 部分:
<meta name="robots" content="noarchive">
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="baiduspider" content="noarchive">
禁止百度访问,并且不在索引显示的代码是:
<META NAME=”BaiduSpider” CONTENT=”NOINDEX,NOFOLLOW”>
禁止Google访问的代码是
<META NAME=”Googlebot” CONTENT=”NOINDEX,NOFOLLOW”>
META标签的Robots
<meta name="Robots" contect="信息参数">
Robots代表告诉搜索引擎机器人抓取哪些页面
其中的属性说明如下:
息参数为none:文件将不被检索,且页面上的链接不可以被查询;
信息参数为index:文件将被检索;
信息参数为follow:页面上的链接可以被查询;
信息参数为all:文件将被检索,且页面上的链接可以被查询;
信息参数为noindex:文件将不被检索,但页面上的链接可以被查询;