【Python】Python3网络爬虫实战-23、使用Urllib：分析Robots协议

最新推荐文章于 2024-07-23 01:00:00 发布

未衬老师

最新推荐文章于 2024-07-23 01:00:00 发布

阅读量368

点赞数

文章标签： Python 数据挖掘网络爬虫 Python爬虫

本文链接：https://blog.csdn.net/weichen090909/article/details/97553372

版权

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。

1. Robots协议

Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫做 robots.txt 的文本文件，放在网站的根目录下。

当搜索爬虫访问一个站点时，它首先会检查下这个站点根目录下是否存在 robots.txt 文件，如果存在，搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件，那么搜索爬虫便会访问所有可直接访问的页面。

下面我们看一个 robots.txt 的样例：

User-agent: *
Disallow: /
Allow: /public/

以上的两行实现了对所有搜索爬虫只允许爬取 public目录的作用。

如上简单的两行，保存成 robots.txt 文件，放在网站的根目录下，和网站的入口文件放在一起。比如 index.php、index.html、index.jsp 等等。

那么上面的 User-agent 就描述了搜索爬虫的名称，在这里将值设置为 *，则代表该协议对任何的爬取爬虫有效。比如我们可以设置：

User-agent: Baiduspider
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这就代表我们设置的规则对百度爬虫是有效的。如果有多条 Us

关注