- 博客(4)
- 收藏
- 关注
原创 scrapy配置爬虫关闭的条件
在scrapy的默认配置文件中看到这四个配置:CLOSESPIDER_TIMEOUT = 0CLOSESPIDER_PAGECOUNT = 0CLOSESPIDER_ITEMCOUNT = 0CLOSESPIDER_ERRORCOUNT = 0这四个配置是配置爬虫自动关闭条件的,等于0代表不开启。CLOSESPIDER_TIMEOUT默认值:0一个整数值,单位为秒。...
2018-10-24 00:06:39 5956 1
原创 scrapy中meta的一个坑点
scrapy的meta的作用就是在执行scrapy.Request()函数时把一些回掉函数中需要的数据传进去,meta必须是一个字典,在下一个函数中可以使用response.meta防问,这里需要注意的是,meta传递的数据是浅拷贝传递的,如果传递的数据是可变的数据类型,那么很容易造成数据不对应的错误,以下是本人在工作中的遇到此问题的代码片段: def parse_jinyan(sel...
2018-10-17 21:08:00 4212 1
原创 python2.7利用reduce函数将列表中的多个字典根据某个vaule去重
先介绍reduce()函数的用法描述reduce() 函数会对参数序列中元素进行累积。函数将一个数据集合(链表,元组等)中的所有数据进行下列操作:用传给 reduce 中的函数 function(有两个参数)先对集合中的第 1、2 个元素进行操作,得到的结果再与第三个数据用 function 函数运算,最后得到一个结果。语法reduce() 函数语法:reduce(fun...
2018-10-15 23:22:28 1390 1
原创 scrapy下载中间件设置User-Agent和IP代理注意细节
在使用scrapy写爬虫的时候经常使用代理来避免被禁,也可以通过下载延迟download_delay等方式,在设置代理的时候需要注意两个细节,虽然不是重点,但是这也是一个隐藏的坑点。1. SPIDER_MIDDLEWARES 和 DOWNLOADER_MIDDLEWARES 会容易混淆,因为在默认的settings里这两个配置很靠近,很容易将DOWNLOADER_MIDDLEWARES 的设置...
2018-10-10 15:52:07 746
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人