自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

九茶

强者自强,厚积薄发。

  • 博客(5)
  • 资源 (12)
  • 问答 (1)
  • 收藏
  • 关注

原创 scrapy_redis种子优化

前言:继《scrapy_redis去重优化(已有7亿条数据),附Demo福利》优化完去重之后,Redis的内存消耗降了许多,然而还不满足。这次对scrapy_redis的种子队列作了一些优化(严格来说并不能用上“优化”这词,其实就是结合自己的项目作了一些改进,对本项目能称作优化,对scrapy_redis未必是个优化)。scrapy_redis默认是将Request对象序列化后(变成一条字符串)存入

2016-11-24 16:40:37 9834 1

原创 QQ空间爬虫分享(2016年11月18日更新)

前言:上一篇文章:《QQ空间爬虫分享(一天可抓取 400 万条数据)》 Github地址:QQSpider Q群讨论:很抱歉QQSpider这个爬虫过了这么久才作更新,同时也很感谢各位同学的肯定和支持! 这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。 使用说明:启动前配置:需要安装的软

2016-11-19 01:31:47 24384 8

原创 天猫双11爬虫(福利:212万条商品数据免费下载)

2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》背景:2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都暂停了,这种机会难得,岂能不爬? 之前没有爬过天猫/京东这些电商平台,对他们网站的结构和防爬机制也不是

2016-11-17 15:03:23 15914 19

原创 scrapy_redis去重优化(已有7亿条数据),附Demo福利

背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了,再加上一千多万条requests的种子,redis占用了一百六十多G的内存(服务器,Centos7),总共才一百七十

2016-11-10 14:48:21 33830 23

原创 基于Redis的Bloomfilter去重(附Python代码)

前言:“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。当去重数据需要持久化时可以使用redis的set数据结构。当数据量再大一点时,可以用不同的加密算法先将长字符串压缩成 16/

2016-11-10 12:32:45 27351 17

SpringBoot实战,丁雪丰 译

别人20个积分放这个资源好贵呀,很多人都下不起,现上传一份供大伙使用。

2018-03-20

Python2.7.14 for windows64位 最新版下载

Python2.7.14,适用64位Windows系统,官网的下载速度特别慢,所以传一份到CSDN,欢迎下载。

2017-10-19

phantomjs-2.1.1-linux-x86_64.tar.bz2

Linux下使用PhantomJS,方法见http://blog.csdn.net/bone_ace/article/details/53213779 第一条评论。

2016-11-25

SublimeText3工具箱

包括文件:Sublime Text Build 3083 x64 Setup.exe、Sublime_Text_CN_3083.zip、 pylint-1.5.2.tar.gz、 Theme - Cobalt2、 使用说明.txt 更多情况请见博客:http://blog.csdn.net/Bone_ACE/article/details/50434050

2015-12-30

FP-Growth算法python实现(完整代码)

包含两个文件,一个是刚构造好FP-tree的代码,另一个是FP-Growth算法python实现的完全代码。更多的介绍请见博客:http://blog.csdn.net/bone_ace/article/details/46746727

2015-07-04

广工离散数学试卷集合

大广工离散数学07/08/12/13年试卷集合

2015-06-16

广工软件工程试卷+各种图

大广工软件工程试卷若干+类图、数据流图、顺序图、状态图、用例图

2015-06-16

广工计算机网络试卷大集合

广工计算机网络07/08/09/12年试题,加上二十几份练习试卷、考纲、知识点、课后答案等等,这些资料考个网络完全够了!

2015-06-16

广工数据结构试卷

大广工05年到10年数据结构试卷集合

2015-06-16

广工数值计算方法试卷

广工数值计算方法试卷5份

2015-06-16

广工Java实验+课设

广工2013年Java实验、课设、蜘蛛纸牌详细设计两份、Java学习笔记。含代码。

2015-06-16

广工数据挖掘12、13、14年试题+课后答案+知识点总结+上课PPT+课外资料

广工数据挖掘12、13、14年试题,课后习题及答案,数据挖掘知识点总结,数据挖掘上课PPT,数据挖掘课外资料

2015-06-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除