- 博客(3)
- 收藏
- 关注
原创 基于Tornado和Scrapy的开源高性能代理池
图片瞎放一个先(doge 前段时间在写爬虫,研究了一下Github排名靠前的免费代理池,都不太喜欢,就自己写了一个,结合了异步框架Tornado和Scrapy,目前支持的特性有: 设定数目,持续从网上爬取新的免费代理,检测可用后存入本地数据库 完全异步,支持高并发(从免费的前提下去衡量……) 通过调用HTTP API来获取代理,后面有时间会增加前端控制页面 周期性自检,更新可用代理 ...
2018-06-16 19:04:32 368
原创 twisted中Deferred对象callback返回值为Deferred对象时
在《Learning Scrapy》第225页看到这两段:>>> # Experiment 3 >>> def status(*ds): ... return [(getattr(d, 'result', "N/A"), len(d.callbacks)) for d in ds] >>> def b_callback(arg): ... print "b_callback called with
2017-07-30 23:18:05 621
原创 scrapy自定义RetryMiddleware
爬虫repo地址:https://github.com/Karmenzind/EasyGoSpider此处需求为: 返回json中带有{"code": 0}时,将此请求加入重试队列 假如json中含有cookie被禁信息,对cookie列表进行修正 源码注释中有一句: Failed pages are collected on the scraping process and reschedul
2017-07-22 18:12:53 6729
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人