九茶

强者自强,厚积薄发。

基于Redis的三种分布式爬虫策略

前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的...

2016-03-27 17:27:31

阅读数 17876

评论数 2

新浪微博分布式爬虫分享

代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能: 此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。 Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Maste...

2016-03-16 15:38:48

阅读数 18624

评论数 5

新浪微博爬虫分享(一天可抓取 1300 万条数据)

代码请移步GitHub:SinaSpider爬虫功能: 此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。 代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。 项目爬的是新浪微博wap站,结构...

2016-03-16 12:11:22

阅读数 124511

评论数 129

爬虫福利:教你爬wap站

前言:玩过爬虫的朋友应该都清楚,爬虫难度:www > m > wap (www是PC端,m和wap是移动端,现在的智能手机一般用的是m站,部分老手机用的还是wap),原因也很简单,现在的网站越来越多地使用AJAX加载,反爬虫机制也厉害。而像wap这种移动端网站限制比较小,网页结构也简单...

2016-03-06 19:42:32

阅读数 19021

评论数 2

Scrapy见面第五天

这算是我第一次使用框架吧,说来惭愧。 此前用Request带上cookie实现、(稍微)完善了QQ空间的爬虫(传送门),接下来想实现分布式去爬。其实只要能实现待爬QQ队列的共享,分布式的主要问题也就解决了。但是觉得这样实现的爬虫项目有点“不正规”,所以想用Scrapy框架和Redis数据库来整顿...

2016-03-06 00:08:40

阅读数 3976

评论数 2

QQ空间爬虫分享(一天可抓取 400 万条数据)

代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。 爬虫速度可达到单机每天400万条数据以上(具体要考...

2016-03-01 13:30:15

阅读数 40002

评论数 37

提示
确定要删除当前文章?
取消 删除