自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

九茶

强者自强,厚积薄发。

  • 博客(5)
  • 资源 (12)
  • 问答 (1)
  • 收藏
  • 关注

原创 基于Redis的三种分布式爬虫策略

前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个:爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。

2016-03-27 17:27:31 20278 2

原创 新浪微博分布式爬虫分享

代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。 环境、架构:开发语言:Python2.7开

2016-03-16 15:38:48 25197 5

原创 爬虫福利:教你爬wap站

前言:玩过爬虫的朋友应该都清楚,爬虫难度:www > m > wap (www是PC端,m和wap是移动端,现在的智能手机一般用的是m站,部分老手机用的还是wap),原因也很简单,现在的网站越来越多地使用AJAX加载,反爬虫机制也厉害。而像wap这种移动端网站限制比较小,网页结构也简单,我们获取、解析起来都简单很多,理论上速度也会快很多。所以如果允许的话我们尽量采用wap站抓取。 正文:可

2016-03-06 19:42:32 24818 4

原创 Scrapy见面第五天

这算是我第一次使用框架吧,说来惭愧。 此前用Request带上cookie实现、(稍微)完善了QQ空间的爬虫(传送门),接下来想实现分布式去爬。其实只要能实现待爬QQ队列的共享,分布式的主要问题也就解决了。但是觉得这样实现的爬虫项目有点“不正规”,所以想用Scrapy框架和Redis数据库来整顿现有爬虫。无奈公司里也没什么人指点,全凭一人摸爬滚打,过程有点痛苦,但自信只要敢啃,还是可以拿下的,不成

2016-03-06 00:08:40 4572 2

原创 QQ空间爬虫分享(一天可抓取 400 万条数据)

代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。 爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更

2016-03-01 13:30:15 57969 38

SpringBoot实战,丁雪丰 译

别人20个积分放这个资源好贵呀,很多人都下不起,现上传一份供大伙使用。

2018-03-20

Python2.7.14 for windows64位 最新版下载

Python2.7.14,适用64位Windows系统,官网的下载速度特别慢,所以传一份到CSDN,欢迎下载。

2017-10-19

phantomjs-2.1.1-linux-x86_64.tar.bz2

Linux下使用PhantomJS,方法见http://blog.csdn.net/bone_ace/article/details/53213779 第一条评论。

2016-11-25

SublimeText3工具箱

包括文件:Sublime Text Build 3083 x64 Setup.exe、Sublime_Text_CN_3083.zip、 pylint-1.5.2.tar.gz、 Theme - Cobalt2、 使用说明.txt 更多情况请见博客:http://blog.csdn.net/Bone_ACE/article/details/50434050

2015-12-30

FP-Growth算法python实现(完整代码)

包含两个文件,一个是刚构造好FP-tree的代码,另一个是FP-Growth算法python实现的完全代码。更多的介绍请见博客:http://blog.csdn.net/bone_ace/article/details/46746727

2015-07-04

广工离散数学试卷集合

大广工离散数学07/08/12/13年试卷集合

2015-06-16

广工软件工程试卷+各种图

大广工软件工程试卷若干+类图、数据流图、顺序图、状态图、用例图

2015-06-16

广工计算机网络试卷大集合

广工计算机网络07/08/09/12年试题,加上二十几份练习试卷、考纲、知识点、课后答案等等,这些资料考个网络完全够了!

2015-06-16

广工数据结构试卷

大广工05年到10年数据结构试卷集合

2015-06-16

广工数值计算方法试卷

广工数值计算方法试卷5份

2015-06-16

广工Java实验+课设

广工2013年Java实验、课设、蜘蛛纸牌详细设计两份、Java学习笔记。含代码。

2015-06-16

广工数据挖掘12、13、14年试题+课后答案+知识点总结+上课PPT+课外资料

广工数据挖掘12、13、14年试题,课后习题及答案,数据挖掘知识点总结,数据挖掘上课PPT,数据挖掘课外资料

2015-06-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除