基本库的使用--urllib--分析Robots协议

最新推荐文章于 2022-07-15 09:52:20 发布

桂花很香,旭很美

最新推荐文章于 2022-07-15 09:52:20 发布

阅读量371

点赞数 2

分类专栏： #python3网络爬虫 Python

本文链接：https://blog.csdn.net/weixin_40959890/article/details/109404166

版权

Python 同时被 2 个专栏收录

176 篇文章 3 订阅

订阅专栏

#python3网络爬虫

27 篇文章 0 订阅

订阅专栏

利用urllib的robotparser模块，可以实现网站Robot协议的分析。

Robots协议

Robots协议也称为爬虫协议、机器人协议，它的全名叫网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫作robots.txt的文件，一般放在网站的根目录下。爬虫访问一个站点时，先检查robots.txt文件，然后根据其中定义的范围来爬取，如果没有这个文件则可以爬取整个站点。

样例：

User-agent：*
Disallow：/
Allow：/public/

这实现了所有爬虫只允许爬取public目录的功能。上述robots.txt文件放在根目录下，与网站入口文件（比如index.php、index.html和index.jsp等）放在一起。上述User-agent描述了爬虫的名字，*代表所有爬虫，比如我们可以设置：User-agent：Baiduspider这就代表设置的规则只对百度爬虫有效。

Disallow指定不允许爬取的目录，Allow一般和Disallow一起使用，用来排除某些限制。

爬虫名称

一些常见的爬虫名称及其对应的网站：

爬虫名字	名称	网站
BaiduSpider	百度	www.baidu.com
Googlebot	谷歌	www.google.com
360Spider	360搜索	www.so.com
YodaoBot	有道	www.youdao.com
ia_archiver	Alexa	www.alexa.com
Scooter	altavista	www.altavista.com

robotparser

使用robotparser模块来解析robots.txt文件，该模块提供了一个类RobotFileParser，可以根据网站的robots.txt文件来判断一个爬虫是否有权限爬取这个网页。

构造方法：

urllib.robotparser.RobotFileParser(url='')

也可以在构造时传入空，最后使用set_url()方法设置一下。

set_url():用来设置robots.txt文件的链接地址
read():读取robots.txt文件并进行分析，注意这里只执行一个读和分析的操作，如果不调用这个方法，接下来的判断都会为False,这个方法不会有返回值，但是执行了读取操作。
parse():用来解析robots.txt文件，传入的参数时robots.txt某些行的内容，它会按照robot.txt的语法规则来分析这些内容。
can_fetch():该方法传入两个参数，第一个是User-agent，第二个是要抓取的URL，返回的内容是该搜索引擎是否抓取这个URL，返回结果是True或Flase。
mtime():返回的是上次抓取和分析robots.txt的时间，这对于长时间分析和抓取的搜索爬虫是很有必要的，你有可能需要定期检查来抓取最新的robots.txt。
modified():它同样对长时间分析和抓取的搜索爬虫很有帮助，将当前时间设置为上次抓取和分析robots.txt的时间。

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://blog.csdn.net/robot.txt')
rp.read()
print(rp.can_fetch('*','https://blog.csdn.net/weixin_40959890/article/details/109352014'))

运行结果：

首先创建了RobotFileParser对象，然后通过set_url（）方法设置了robots.txt的链接。当然不用这个方法的话可以在声明时直接用如下方法设置：

rp = RobotFileParser('https://blog.csdn.net/weixin_40959890/article/details/109352014')

接着利用can_fetch()方法判断网页是否可以被抓取。

桂花很香,旭很美

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
基本库的使用--urllib--分析Robots协议

利用urllib的robotparser模块，可以实现网站Robot协议的分析。 Robots协议 Robots协议也称为爬虫协议、机器人协议，它的全名叫网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫作robots.txt的文件，一般放在网站的根目录下。爬虫访问一个站点时，先检查robots.txt文件，然后根据其中定义的范围来爬取，如果没有这个文件则可以爬取整个站点。样例：User-agen
复制链接

扫一扫

专栏目录