- 博客(5)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 基于Redis的三种分布式爬虫策略
前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个:爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。
2016-03-27 17:27:31 20284 2
原创 新浪微博分布式爬虫分享
代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。 环境、架构:开发语言:Python2.7开
2016-03-16 15:38:48 25203 5
原创 爬虫福利:教你爬wap站
前言:玩过爬虫的朋友应该都清楚,爬虫难度:www > m > wap (www是PC端,m和wap是移动端,现在的智能手机一般用的是m站,部分老手机用的还是wap),原因也很简单,现在的网站越来越多地使用AJAX加载,反爬虫机制也厉害。而像wap这种移动端网站限制比较小,网页结构也简单,我们获取、解析起来都简单很多,理论上速度也会快很多。所以如果允许的话我们尽量采用wap站抓取。 正文:可
2016-03-06 19:42:32 24819 4
原创 Scrapy见面第五天
这算是我第一次使用框架吧,说来惭愧。 此前用Request带上cookie实现、(稍微)完善了QQ空间的爬虫(传送门),接下来想实现分布式去爬。其实只要能实现待爬QQ队列的共享,分布式的主要问题也就解决了。但是觉得这样实现的爬虫项目有点“不正规”,所以想用Scrapy框架和Redis数据库来整顿现有爬虫。无奈公司里也没什么人指点,全凭一人摸爬滚打,过程有点痛苦,但自信只要敢啃,还是可以拿下的,不成
2016-03-06 00:08:40 4572 2
原创 QQ空间爬虫分享(一天可抓取 400 万条数据)
代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。 爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更
2016-03-01 13:30:15 58045 38
Python2.7.14 for windows64位 最新版下载
2017-10-19
phantomjs-2.1.1-linux-x86_64.tar.bz2
2016-11-25
SublimeText3工具箱
2015-12-30
FP-Growth算法python实现(完整代码)
2015-07-04
广工数据挖掘12、13、14年试题+课后答案+知识点总结+上课PPT+课外资料
2015-06-15
求三个很简单的 Oracle 语句(只是因为英文题目,看着有点晕而已)
2015-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人