2018年10月_辉辉咯

12月 10月 09月 08月 07月 06月 05月 04月 03月

原创 scrapy配置爬虫关闭的条件

在scrapy的默认配置文件中看到这四个配置：CLOSESPIDER_TIMEOUT = 0CLOSESPIDER_PAGECOUNT = 0CLOSESPIDER_ITEMCOUNT = 0CLOSESPIDER_ERRORCOUNT = 0这四个配置是配置爬虫自动关闭条件的，等于0代表不开启。CLOSESPIDER_TIMEOUT默认值:0一个整数值，单位为秒。...

2018-10-24 00:06:39 5956 1

原创 scrapy中meta的一个坑点

scrapy的meta的作用就是在执行scrapy.Request()函数时把一些回掉函数中需要的数据传进去，meta必须是一个字典，在下一个函数中可以使用response.meta防问，这里需要注意的是，meta传递的数据是浅拷贝传递的，如果传递的数据是可变的数据类型，那么很容易造成数据不对应的错误，以下是本人在工作中的遇到此问题的代码片段： def parse_jinyan(sel...

2018-10-17 21:08:00 4212 1

原创 python2.7利用reduce函数将列表中的多个字典根据某个vaule去重

先介绍reduce()函数的用法描述reduce() 函数会对参数序列中元素进行累积。函数将一个数据集合（链表，元组等）中的所有数据进行下列操作：用传给 reduce 中的函数 function（有两个参数）先对集合中的第 1、2 个元素进行操作，得到的结果再与第三个数据用 function 函数运算，最后得到一个结果。语法reduce() 函数语法：reduce(fun...

2018-10-15 23:22:28 1390 1

原创 scrapy下载中间件设置User-Agent和IP代理注意细节

在使用scrapy写爬虫的时候经常使用代理来避免被禁，也可以通过下载延迟download_delay等方式，在设置代理的时候需要注意两个细节，虽然不是重点，但是这也是一个隐藏的坑点。1. SPIDER_MIDDLEWARES 和 DOWNLOADER_MIDDLEWARES 会容易混淆，因为在默认的settings里这两个配置很靠近，很容易将DOWNLOADER_MIDDLEWARES 的设置...

2018-10-10 15:52:07 746

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人