- 博客(5)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 scrapy_redis种子优化
前言:继《scrapy_redis去重优化(已有7亿条数据),附Demo福利》优化完去重之后,Redis的内存消耗降了许多,然而还不满足。这次对scrapy_redis的种子队列作了一些优化(严格来说并不能用上“优化”这词,其实就是结合自己的项目作了一些改进,对本项目能称作优化,对scrapy_redis未必是个优化)。scrapy_redis默认是将Request对象序列化后(变成一条字符串)存入
2016-11-24 16:40:37 9834 1
原创 QQ空间爬虫分享(2016年11月18日更新)
前言:上一篇文章:《QQ空间爬虫分享(一天可抓取 400 万条数据)》 Github地址:QQSpider Q群讨论:很抱歉QQSpider这个爬虫过了这么久才作更新,同时也很感谢各位同学的肯定和支持! 这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。 使用说明:启动前配置:需要安装的软
2016-11-19 01:31:47 24384 8
原创 天猫双11爬虫(福利:212万条商品数据免费下载)
2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》背景:2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都暂停了,这种机会难得,岂能不爬? 之前没有爬过天猫/京东这些电商平台,对他们网站的结构和防爬机制也不是
2016-11-17 15:03:23 15914 19
原创 scrapy_redis去重优化(已有7亿条数据),附Demo福利
背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了,再加上一千多万条requests的种子,redis占用了一百六十多G的内存(服务器,Centos7),总共才一百七十
2016-11-10 14:48:21 33830 23
原创 基于Redis的Bloomfilter去重(附Python代码)
前言:“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。当去重数据需要持久化时可以使用redis的set数据结构。当数据量再大一点时,可以用不同的加密算法先将长字符串压缩成 16/
2016-11-10 12:32:45 27351 17
Python2.7.14 for windows64位 最新版下载
2017-10-19
phantomjs-2.1.1-linux-x86_64.tar.bz2
2016-11-25
SublimeText3工具箱
2015-12-30
FP-Growth算法python实现(完整代码)
2015-07-04
广工数据挖掘12、13、14年试题+课后答案+知识点总结+上课PPT+课外资料
2015-06-15
求三个很简单的 Oracle 语句(只是因为英文题目,看着有点晕而已)
2015-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人