正确配置Robots.txt

 新站上线,最希望能够尽快被搜索引擎收录。

 当然,我们并不希望搜索引擎收录网站中的任何页面。其中某些页面由于隐私、管理等等,并不希望被收录。

 正确的配置网站的robots.txt非常重要,错误的配置会导致搜索引擎不能很好的收录甚至无法收录。

 各个搜索引擎都有自己的搜索机器人(Robots)在为他们工作,这些Robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。

下面是一些搜索引擎的机器人名称:

机器人名称 搜索引擎 Baiduspider http://www.baidu.com Googlebot http://www.google.com/ MSNBOT http://search.msn.com/ FAST-WebCrawler http://www.alltheweb.com/ ia_archiver http://www.alexa.com/ Scooter http://www.altavista.com/ Slurp http://www.inktomi.com

Robot.txt   简单的说,Robot.txt就是一个纯文本文档,里面包含一些命令,当Robots来网站时,就会首先检查该网站上是否有Robot.txt,若有,则一般会根据这些命令来执行;若无,则会自动抓取网页或网站。Robots.txt 文件应放于网站根目录下,并且该文件是可以通过互联网进行访问的。

下面看一个具体的实例(#后面的内容是为方便阅读而设):

# robots.txt file start

# Exclude Files From All Robots:

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /admin

# End robots.txt file

User-agent:用于描述搜索引擎蜘蛛的名字,在 Robots.txt 文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在Robots.txt 文件中,"User-agent:*"这样的记录只能有一条。

Disallow:就表示不允许蜘蛛访问,你可以根据自己的需要设立后面的目录或者是文件。

Disallow: /images/:是指不允许搜索引擎蜘蛛抓取/images目录下的内容。

Disallow: /admin:是指/admin.html 和/admin/index.html都不允许搜索引擎蜘蛛抓取。

例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/cgi-bin/"目录,以及 "/tmp/"目录和 /test.html 文件,设置方法如下: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /test.html

例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。 如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi-bin/" 目录下的内容,设置方法如下: User-agent: * Disallow: /cgi-bin/

User-agent: slurp Disallow:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值