自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 scrapy配置爬虫关闭的条件

在scrapy的默认配置文件中看到这四个配置:CLOSESPIDER_TIMEOUT = 0CLOSESPIDER_PAGECOUNT = 0CLOSESPIDER_ITEMCOUNT = 0CLOSESPIDER_ERRORCOUNT = 0这四个配置是配置爬虫自动关闭条件的,等于0代表不开启。CLOSESPIDER_TIMEOUT默认值:0一个整数值,单位为秒。...

2018-10-24 00:06:39 5956 1

原创 scrapy中meta的一个坑点

scrapy的meta的作用就是在执行scrapy.Request()函数时把一些回掉函数中需要的数据传进去,meta必须是一个字典,在下一个函数中可以使用response.meta防问,这里需要注意的是,meta传递的数据是浅拷贝传递的,如果传递的数据是可变的数据类型,那么很容易造成数据不对应的错误,以下是本人在工作中的遇到此问题的代码片段: def parse_jinyan(sel...

2018-10-17 21:08:00 4212 1

原创 python2.7利用reduce函数将列表中的多个字典根据某个vaule去重

先介绍reduce()函数的用法描述reduce() 函数会对参数序列中元素进行累积。函数将一个数据集合(链表,元组等)中的所有数据进行下列操作:用传给 reduce 中的函数 function(有两个参数)先对集合中的第 1、2 个元素进行操作,得到的结果再与第三个数据用 function 函数运算,最后得到一个结果。语法reduce() 函数语法:reduce(fun...

2018-10-15 23:22:28 1390 1

原创 scrapy下载中间件设置User-Agent和IP代理注意细节

在使用scrapy写爬虫的时候经常使用代理来避免被禁,也可以通过下载延迟download_delay等方式,在设置代理的时候需要注意两个细节,虽然不是重点,但是这也是一个隐藏的坑点。1. SPIDER_MIDDLEWARES 和 DOWNLOADER_MIDDLEWARES 会容易混淆,因为在默认的settings里这两个配置很靠近,很容易将DOWNLOADER_MIDDLEWARES 的设置...

2018-10-10 15:52:07 746

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除