python爬虫学习12

本文介绍了如何使用Python的robotparser模块解析robot.txt文件。通过设置URL、读取文件、解析内容以及使用can_fetch()方法判断搜索引擎是否可以抓取特定URL。文章以实例展示了如何分析百度的robots.txt,并指出urllib库的学习已结束,接下来将转向requests库的探讨。
摘要由CSDN通过智能技术生成

python爬虫学习12

  • robotparser

    ​ 上一篇我们一同了解了Robots协议,了解协议之后我们就可以使用robotparser模块来解析robot.txt文件了。

    • RobotFileParser

      • 声明:

        在这里插入图片描述

        只需要在使用该类时传入robot.txt的url连接即可

      • set_url ()方法:用来设置robot.txt文件的连接

        在这里插入图片描述

      • read()方法:读取robot.txt文件进行分析

        在这里插入图片描述

      • parse()方法:用于解析robot.txt文件

        在这里插入图片描述

      • can_fetch(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值