- 博客(2)
- 收藏
- 关注
原创 scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则
在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句: setting文件中配置: # Obey robots.txt rules #默认是True,遵守robots.txt文件中的协议,遵守允许爬取的范围。 #设置为False,是不遵守robo协议文件。。。 ROBOTSTXT_OBEY = True 观察代码可以发现,默认为True,就是要遵守rob...
2018-08-14 12:15:35 3964
原创 爬虫urllib。request中各种处理器,构造opener。open(处理登陆验证的,处理cookies的,处理代理设置的)
高级用法 (都不是很懂,所以看之后实践过程中使用吧) 更强大的工具Handler登场 ,可以理解为各种处理器,有专门处理登陆验证的,有处理cookies的,有处理代理设置的。利用它们,我们几乎可以做到HTTP请求中的所有事。 首先介绍的BaseHandler类,它是所有Handler的父类,它提供了最基本的方法,例如default_open()、protocol_request()等 ...
2018-08-08 17:45:18 2310
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人