在很多的网站中,站长们都忽略了使用robots.txt 文件。因为很多站长认为自己的网站没什么秘密,而且自己也不太会使用robots.txt 的语法,因此一旦写错了就会带来更多的麻烦,还不如不写。
其实这么想是不对的,如果蜘蛛或小机器人在访问你的网站的一个URL 时,这个URL 不存在,那么就会记录一条404 信息(网页不存在),而robots.txt 就是蜘蛛第一个访问的文件,如果404 的信息过多,那么搜索引擎就会认为该网站的价值较低,从而降低该网站的权重(weight), 那么该网站的排名也自然会排在后面。所以即使你什么也不会,放个空的robots.txt 也好。
----------------------- 选自《SEO 魔法书》
一般情况下,人们总喜欢自己的网站被搜索引擎收入的越多越好,这就表示自己的网站被搜索到得概率越大。但是,有的网站你还是不希望被搜索收入的,比如后台管理页面,比如电子商务里的购物车页面,这些页面都是忌讳被直接搜到访问的。那如何阻止搜索引擎的收入呢?这正是今天要讲的。
1) Robots.txt
什么是robots.txt ?
robots.txt 是搜索引擎索引你网站的时候要查看的第一个文件。Robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的, 而什么文件是不允许被收入的。
所以,第一个方法就是编写robots.txt 。那如何编写?太简单了,就三个指令如下:
User-agent: 对谁(一般指机器人或者说是蜘蛛)
Disallow: 不被允许的文件或路径
Allow: 允许的文件或路径
Robots.txt 里的注释和java 里的属性文件一样用# 注释
列1 :
允许所有搜索引擎访问网站的所有部分
-- 可以建立一个空的robots.tx ,
或者
# 这里* 代表所有蜘蛛爬虫
User-agent:*
# 这里空 表示没有不允许的内容,即 允许全部
Disallow:
或者
User-agent:*
# 这里/ 表示根目录下所有文件
Allow:/
列2 :禁止所有搜索引擎收入网站的所有部分
User-agent:*
Disallow:/
列3 :禁止所有搜索引擎访问网站的几个部分(下例中的01 、02 、03 目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
列4 : 禁止百度索引你的网站:
User-agent:Baiduspider
Disallow:/
列5 : 禁止除百度以外的搜索引擎索引你的网站
#( 一个robots.txt 中可以含有多个User-agent,Disallow 和Allow 针对的是在他上面并离他最近的那个User-agent)
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
通配符"*" 和"$" 的使用:
"$" 匹配行结束符。
"*" 匹配0 或多个任意字符。
使用“$ ”允许访问某个目录下某个后缀的文件
User-agent:*
Allow:.asp$
Disallow:/
禁止索引网站的所有动态页面
(这里限制由?的域名 eg:index.jsp?id=10086 )
User-agent:*
Disallow:/*?*
禁止百度抓取你网上的图片
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
…… (其他图片格式)
如何写robots.txt ?
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt ,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
注意:robots.txt 必须放置在一个站点的根目录 下,而且文件名必须全部小写 。
爬虫名称 | 各搜索引擎名称 |
Googlebot | Google 对网页的索引蜘蛛 |
Googlebot-Mobile | Google 对移动设备,如手机的索引爬虫 |
Googlebot-Image | Google 专门针对图片的蜘蛛 |
Baiduspider | 百度综合索引蜘蛛 |
Slurp | 雅虎蜘蛛 |
YodaoBot | 网易有道蜘蛛 |
Sosospider | 搜搜蜘蛛 |
Sosou spider | 搜狗蜘蛛 |
MSNBot | Live 综合索引蜘蛛 |
2) 网页中的meta 标签
<meta name=”robots” content=””>
这里content 的值可以是下面的组合:
content值 | 代表意思 |
all | 同(index,follow) |
noindex | 不索引当前页 |
index | 索引当前页 |
nofollow | 不跟踪当前页的链接 |
follow | 跟踪当前页的链接 |
noarchive | 在搜索结果中不保存当前快照 |
archive | 在搜索结果中保存当前快照 |
none | 同( noindex,nofollow) |