python爬虫基础(十)分析Robots协议

本文介绍了Python中如何使用urllib的robotparser模块分析网站的Robots协议,详细讲解了如何设置和理解robots.txt文件,以及如何通过RobotFileParser类进行权限判断。示例展示了爬虫名称的识别,如Baiduspider、Googlebot等,并通过can_fetch()方法检查爬虫对URL的抓取权限。
摘要由CSDN通过智能技术生成

利用urllib的robotparser,我们可以实现网站Robots协议的分析。

1.robots协议

Robots协议用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不能抓取。它通常是一个叫作robots.txt的文本文件,一般放在网站的根目录下。

User-agent:*
Disallow:/
Allow:/public/

这实现了只允许爬取public目录的功能,将上述内容保存为robots.txt文件。放在网站的根目录下,和网站的入口文件(如index.php、index.html和index.jsp等)放在一起。

上面的User-agent 描述了搜索爬虫的名称,这里将其设置为*则代表该协议对任何爬取爬虫有效。

User-agent:Baiduspider

这就代表我们设置的规则对百度爬虫是有效的。

Disallow 制定了不允许抓取的目录,上例设置为/代表不允许抓取所以页面。

Allow一般和Disallow一起使用,用来排除某些限制。上例设置为/public/,则表示所有页面不允许抓取,但可以抓取public目录。

只允许某一个爬虫访问的代码如下:

User-agent:WebCrawler

Disallow:

User-agent:*

Disallow:/

2.爬虫名称

百度的是BaiduSpider,谷歌的是Googlebot,360搜索的是360Spider,有道的是YodaoBot,Alexa的是is_archiver,altavista的是Scooter。

3.robotparser

该模块提供了一个类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值