2016年03月_九茶

12月 11月 09月 03月 02月

原创基于Redis的三种分布式爬虫策略

前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。个人以为分布式爬虫需要考虑的点主要有以下几个：爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库，中间的调度任务等用scrapy-redis模块实现。

2016-03-27 17:27:31 20284 2

原创新浪微博分布式爬虫分享

代码请移步GitHub：SinaSpider（上面有跳转链接，别再问我代码在哪里了）爬虫功能：此项目实现将单机的新浪微博爬虫（见《新浪微博爬虫分享（一天可抓取 1300 万条数据）》）重构成分布式爬虫。Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿。环境、架构：开发语言：Python2.7开

2016-03-16 15:38:48 25203 5

原创爬虫福利：教你爬wap站

前言：玩过爬虫的朋友应该都清楚，爬虫难度：www > m > wap （www是PC端，m和wap是移动端，现在的智能手机一般用的是m站，部分老手机用的还是wap），原因也很简单，现在的网站越来越多地使用AJAX加载，反爬虫机制也厉害。而像wap这种移动端网站限制比较小，网页结构也简单，我们获取、解析起来都简单很多，理论上速度也会快很多。所以如果允许的话我们尽量采用wap站抓取。正文：可

2016-03-06 19:42:32 24819 4

原创 Scrapy见面第五天

这算是我第一次使用框架吧，说来惭愧。此前用Request带上cookie实现、（稍微）完善了QQ空间的爬虫（传送门），接下来想实现分布式去爬。其实只要能实现待爬QQ队列的共享，分布式的主要问题也就解决了。但是觉得这样实现的爬虫项目有点“不正规”，所以想用Scrapy框架和Redis数据库来整顿现有爬虫。无奈公司里也没什么人指点，全凭一人摸爬滚打，过程有点痛苦，但自信只要敢啃，还是可以拿下的，不成

2016-03-06 00:08:40 4572 2

原创 QQ空间爬虫分享（一天可抓取 400 万条数据）

代码请移步GitHub：QQSpider爬虫功能：QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息，详细可见数据库说明。判重使用“内存位”判重，理论上亿数量级的QQ可瞬间判重，内存只占用400M+。爬虫速度可达到单机每天400万条数据以上（具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+，但在公司那边却只有六成的速度，普通家庭网络可能会更

2016-03-01 13:30:15 58045 38

SpringBoot实战，丁雪丰译

别人20个积分放这个资源好贵呀，很多人都下不起，现上传一份供大伙使用。

2018-03-20

Python2.7.14 for windows64位最新版下载

Python2.7.14，适用64位Windows系统，官网的下载速度特别慢，所以传一份到CSDN，欢迎下载。

2017-10-19

phantomjs-2.1.1-linux-x86_64.tar.bz2

Linux下使用PhantomJS，方法见http://blog.csdn.net/bone_ace/article/details/53213779 第一条评论。

2016-11-25

SublimeText3工具箱

包括文件：Sublime Text Build 3083 x64 Setup.exe、Sublime_Text_CN_3083.zip、 pylint-1.5.2.tar.gz、 Theme - Cobalt2、使用说明.txt 更多情况请见博客：http://blog.csdn.net/Bone_ACE/article/details/50434050

2015-12-30