豆瓣的robots内容分析

豆瓣的robots内容如下:
========================================================
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml

User-agent: Slurp
User-agent: Sosospider
Crawl-delay: 5
Visit-time: 0100-1300
Request-rate: 40/1m 0100 - 0759
Request-rate: 12/1m 0800 - 1300

========================================================

下面来解释下含义:

robots.txt文件中各项目的格式为: :
常用的field有Allow, Disallow, Request-rate, Visit-time, User-agent, Robot-version等.robots.txt文件中的注释以'#'开始.可以为独立的一行,也可以一行的后面部分.下面对每一个field,也叫directive进行一一介绍:

1. User-agent: The value of this field is the name of the robot the record is describing access policy for.
例子:User-agent: *
在这里*代表,any robot that has not matched any of the other records

2. Disallow: 指定不能访问我URL
例子: Disallow: /foo.html #foo.html不能访问
Disallow: #该目录下所有URL都可访问
Disallow: / #该目录下所有URL都不可以访问

3. Allow: 用来指定能访问的URL, 这个在当指定所有URL为不可访问,然后可以用这个排除特殊的一些. 这时候比较方便.
例子: Allow: / #允许访问所有URL

>>>> 一般的网站基本用到这些,下面用的就不多了,所以好多人看不懂,一般大型网站用的比较多,大家可以学习下。

4. Robot-version: 用来指定robot协议的版本号
例子: Robot-version: Version 2.0

5.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

6. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.
例子: Visit-time: 0100-1300 #允许在凌晨1:00到下午13:00访问

7. Request-rate: 用来限制URL的读取频率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问

另外还有一点:robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://czseo.9d88.com/sitemap.xml (此处请填写XML地图的绝对路径,即完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交给Google网站管理员工具后会提示:检测到无效的 Sitemap 网址;语法错误。
XML地图必须在网站根目录下才有效。)

原文地址:http://czseo.9d88.com/1025.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值