2016年11月_九茶

12月 11月 09月 03月 02月

原创 scrapy_redis种子优化

前言：继《scrapy_redis去重优化（已有7亿条数据），附Demo福利》优化完去重之后，Redis的内存消耗降了许多，然而还不满足。这次对scrapy_redis的种子队列作了一些优化（严格来说并不能用上“优化”这词，其实就是结合自己的项目作了一些改进，对本项目能称作优化，对scrapy_redis未必是个优化）。scrapy_redis默认是将Request对象序列化后（变成一条字符串）存入

2016-11-24 16:40:37 9834 1

原创 QQ空间爬虫分享（2016年11月18日更新）

前言：上一篇文章：《QQ空间爬虫分享（一天可抓取 400 万条数据）》 Github地址：QQSpider Q群讨论：很抱歉QQSpider这个爬虫过了这么久才作更新，同时也很感谢各位同学的肯定和支持！这次主要替换了程序里一些不可用的链接，对登录时的验证码作了处理，对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。使用说明：启动前配置：需要安装的软

2016-11-19 01:31:47 24384 8

原创天猫双11爬虫（福利：212万条商品数据免费下载）

2016年12月12日更新：《天猫双12爬虫（福利：266万条商品数据免费下载）》背景：2016年11月11日，中午刷了一下天猫，突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11，不仅因为打折商品的数据比普通数据更有价值，更重要的是在双11，天猫、京东为了容纳大流量，肯定会把防爬机制都暂停了，这种机会难得，岂能不爬？之前没有爬过天猫/京东这些电商平台，对他们网站的结构和防爬机制也不是

2016-11-17 15:03:23 15914 19

原创 scrapy_redis去重优化（已有7亿条数据），附Demo福利

背景：前些天接手了上一位同事的爬虫，一个全网爬虫，用的是scrapy+redis分布式，任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的，用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了，再加上一千多万条requests的种子，redis占用了一百六十多G的内存（服务器，Centos7），总共才一百七十

2016-11-10 14:48:21 33830 23

原创基于Redis的Bloomfilter去重（附Python代码）

前言：“去重”是日常工作中会经常用到的一项技能，在爬虫领域更是常用，并且规模一般都比较大。去重需要考虑两个点：去重的数据量、去重速度。为了保持较快的去重速度，一般选择在内存中进行去重。数据量不大时，可以直接放在内存里面进行去重，例如python可以使用set()进行去重。当去重数据需要持久化时可以使用redis的set数据结构。当数据量再大一点时，可以用不同的加密算法先将长字符串压缩成 16/

2016-11-10 12:32:45 27351 17

SpringBoot实战，丁雪丰译

别人20个积分放这个资源好贵呀，很多人都下不起，现上传一份供大伙使用。

2018-03-20

Python2.7.14 for windows64位最新版下载

Python2.7.14，适用64位Windows系统，官网的下载速度特别慢，所以传一份到CSDN，欢迎下载。

2017-10-19

phantomjs-2.1.1-linux-x86_64.tar.bz2

Linux下使用PhantomJS，方法见http://blog.csdn.net/bone_ace/article/details/53213779 第一条评论。

2016-11-25

SublimeText3工具箱

包括文件：Sublime Text Build 3083 x64 Setup.exe、Sublime_Text_CN_3083.zip、 pylint-1.5.2.tar.gz、 Theme - Cobalt2、使用说明.txt 更多情况请见博客：http://blog.csdn.net/Bone_ACE/article/details/50434050

2015-12-30