九茶

强者自强,厚积薄发。

scrapy_redis种子优化

前言:继《scrapy_redis去重优化(已有7亿条数据),附Demo福利》优化完去重之后,Redis的内存消耗降了许多,然而还不满足。这次对scrapy_redis的种子队列作了一些优化(严格来说并不能用上“优化”这词,其实就是结合自己的项目作了一些改进,对本项目能称作优化,对scrapy_r...

2016-11-24 16:40:37

阅读数 7580

评论数 1

QQ空间爬虫分享(2016年11月18日更新)

前言: 上一篇文章:《QQ空间爬虫分享(一天可抓取 400 万条数据)》 Github地址:QQSpider Q群讨论: 很抱歉QQSpider这个爬虫过了这么久才作更新,同时也很感谢各位同学的肯定和支持! 这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优...

2016-11-19 01:31:47

阅读数 17601

评论数 5

天猫双11爬虫(福利:212万条商品数据免费下载)

2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》背景:2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都...

2016-11-17 15:03:23

阅读数 10990

评论数 17

scrapy_redis去重优化(已有7亿条数据),附Demo福利

背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了,再加上一千多...

2016-11-10 14:48:21

阅读数 26238

评论数 22

基于Redis的Bloomfilter去重(附Python代码)

前言:“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。 当去重数据需要持久化时...

2016-11-10 12:32:45

阅读数 20308

评论数 15

提示
确定要删除当前文章?
取消 删除