Python爬虫之爬取——解析robots.txt文件

Vic时代

于 2017-08-14 10:11:19 发布

阅读量1w

点赞数

分类专栏：编程语言Python 文章标签： robots-txt 爬虫解析robots

本文链接：https://blog.csdn.net/VictoriaW/article/details/77155551

版权

robots.txt文件规定了爬虫在爬取该网站时有哪些约束。

robots.txt示例

下面给出一个robots.txt示例：

禁止用户代理为BadCrawler的爬虫爬取该网站
#section 1
User-agent: BadCrawler
Disallow: /

无论哪种用户代理，都应该在两次下载请求之间有5秒的时延；/trap链接是禁止链接，如果访问了这个链接，服务器就会封禁你的IP一分钟或者永久封禁
# section 2
User-agent: *
Crawl-delay: 5
Disallow: /trap

# section 3
Sitemap: http://example.com/sitemap.xml