2018年08月_Ren_ger

12月 11月 08月 07月

原创 scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则

在scrapy中创建项目以后，在settings文件中有这样的一条默认开启的语句： setting文件中配置： # Obey robots.txt rules #默认是True，遵守robots.txt文件中的协议，遵守允许爬取的范围。 #设置为False，是不遵守robo协议文件。。。 ROBOTSTXT_OBEY = True 观察代码可以发现，默认为True，就是要遵守rob...

2018-08-14 12:15:35 3964

原创爬虫urllib。request中各种处理器，构造opener。open（处理登陆验证的，处理cookies的，处理代理设置的）

高级用法 (都不是很懂，所以看之后实践过程中使用吧) 更强大的工具Handler登场，可以理解为各种处理器，有专门处理登陆验证的，有处理cookies的，有处理代理设置的。利用它们，我们几乎可以做到HTTP请求中的所有事。首先介绍的BaseHandler类，它是所有Handler的父类，它提供了最基本的方法，例如default_open()、protocol_request()等 ...

2018-08-08 17:45:18 2310

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则

原创 爬虫urllib。request中各种处理器，构造opener。open（处理登陆验证的，处理cookies的，处理代理设置的）

空空如也

空空如也

原创爬虫urllib。request中各种处理器，构造opener。open（处理登陆验证的，处理cookies的，处理代理设置的）