基本库的使用--urllib--分析Robots协议

利用urllib的robotparser模块,可以实现网站Robot协议的分析。

  • Robots协议

Robots协议也称为爬虫协议、机器人协议,它的全名叫网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫作robots.txt的文件,一般放在网站的根目录下。爬虫访问一个站点时,先检查robots.txt文件,然后根据其中定义的范围来爬取,如果没有这个文件则可以爬取整个站点。

样例:

User-agent:*
Disallow:/
Allow:/public/

这实现了所有爬虫只允许爬取public目录的功能。上述robots.txt文件放在根目录下,与网站入口文件(比如index.php、index.html和index.jsp等)放在一起。上述User-agent描述了爬虫的名字,*代表所有爬虫,比如我们可以设置:User-agent:Baiduspider这就代表设置的规则只对百度爬虫有效。

Disallow指定不允许爬取的目录,Allow一般和Disallow一起使用,用来排除某些限制。

  • 爬虫名称

一些常见的爬虫名称及其对应的网站:

爬虫名字名称网站
BaiduSpider百度www.baidu.com
Googlebot谷歌www.google.com
360Spider360搜索www.so.com
YodaoBot有道www.youdao.com
ia_archiverAlexawww.alexa.com
Scooteraltavistawww.altavista.com
  • robotparser

使用robotparser模块来解析robots.txt文件,该模块提供了一个类RobotFileParser,可以根据网站的robots.txt文件来判断一个爬虫是否有权限爬取这个网页。

构造方法:

urllib.robotparser.RobotFileParser(url='')

也可以在构造时传入空,最后使用set_url()方法设置一下。

  • set_url():用来设置robots.txt文件的链接地址
  • read():读取robots.txt文件并进行分析,注意这里只执行一个读和分析的操作,如果不调用这个方法,接下来的判断都会为False,这个方法不会有返回值,但是执行了读取操作。
  • parse():用来解析robots.txt文件,传入的参数时robots.txt某些行的内容,它会按照robot.txt的语法规则来分析这些内容。
  • can_fetch():该方法传入两个参数,第一个是User-agent,第二个是要抓取的URL,返回的内容是该搜索引擎是否抓取这个URL,返回结果是True或Flase。
  • mtime():返回的是上次抓取和分析robots.txt的时间,这对于长时间分析和抓取的搜索爬虫是很有必要的,你有可能需要定期检查来抓取最新的robots.txt。
  • modified():它同样对长时间分析和抓取的搜索爬虫很有帮助,将当前时间设置为上次抓取和分析robots.txt的时间。
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://blog.csdn.net/robot.txt')
rp.read()
print(rp.can_fetch('*','https://blog.csdn.net/weixin_40959890/article/details/109352014'))

运行结果:

                                                                  首先创建了RobotFileParser对象,然后通过set_url()方法设置了robots.txt的链接。当然不用这个方法的话可以在声明时直接用如下方法设置:

rp = RobotFileParser('https://blog.csdn.net/weixin_40959890/article/details/109352014')

 接着利用can_fetch()方法判断网页是否可以被抓取。                                                                                                                                                                                              

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值