认识爬虫：在 python 爬虫过程中做一个正人君子？了解一下 robots.txt 文件吧？

最新推荐文章于 2022-03-04 14:56:50 发布

Python 集中营

最新推荐文章于 2022-03-04 14:56:50 发布

阅读量281

点赞数 1

分类专栏： python 文章标签： python爬虫 robots.txt

本文链接：https://blog.csdn.net/chengxuyuan_110/article/details/115564063

版权

python 专栏收录该内容

107 篇文章 35 订阅

订阅专栏

什么是 robots.txt 文件？

网络爬虫程序在执行时，首先应该检查站点根目录是否存在 robots.txt 文件。当这个文本文件存在时应该按照它的规则来爬取执行相应的内容，也就是爬取站点开放范围内的内容。当然，如果说你的站点不想被任何形式的爬虫、这个时候搜索引擎也是不能收录你站点的内容的，搜索引擎不进行收录时网站的 SEO 优化也会受到影响。
robots.txt 文件防君子、不防小人。大多时候，robots.txt 文件的校验都被忽略了，最好在进行网络爬虫之前检验 robots.txt 文件是否存在，并且按照文件中定义的规则来检验爬虫的范围。

robots.txt 文件的定义规则是什么？

robots.txt 文件主要有 User-agent、Allow、Disallow 几个关键字来定义规则，User-agent 一般指的是对用户身份的限制，Allow、Disallow 主要是允许/拒绝访问 URL 地址。

实例一

1# 允许所有的 robot 进行访问
2
3User-agent: * 
4
5Allow: /

实例二

1#拒绝所有的 robot 进行访问
2
3User-agent: *
4
5Disallow: /

实例三

1#拒绝所有的 robot 访问某个目录
2
3User-agent: *
4
5Disallow: /user/load/data

实例四

1#允许所有的 robot 访问特定的目录
2
3User-agent: *
4
5Allow: /user/load
6
7Allow: /user/excel

实例五

1#拒绝所有的 robot 访问某个目录下面 html 结尾的文件
2
3User-agent: *
4
5Disallow: /api/*.html

实例六

1#仅允许所有用户访问 .jsp 结尾的文件
2
3User-agent: *
4
5Allow: .jsp$
6
7Disallow: /

在实际应用中可以根据具体站点的需求任意组合这三个关键字的使用，完成对爬虫规则范围的配置。

更多精彩前往微信公众号【Python 集中营】，专注于 python 技术栈，资料获取、交流社区、干货分享，期待你的加入~

在这里插入图片描述

Python 集中营

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录