自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

younghz

不论怎样,保持前进。

原创 关于“淘宝爆款”的数据抓取与数据分析

数据爬取 爬取对象:淘宝“连衣裙 夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。 工具:Scrapy。Repository内容即为当时实现的代码。 数据分析 分析内容可见此Repository的Wiki。也可见上面问题链接。 工具:ipython & matplotlib。 ...

2014-07-06 09:44:02

阅读数 24234

评论数 4

原创 Scrapy研究探索(七)——如何防止被ban之策略大集合

话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。如下: 敌退我进,敌攻我挡。 本篇博客主要研究使用防止被ban的几大策略以及在scrapy中的使用。 1.策略一:设置download_delay 这个在之前的教程中已经使用...

2014-06-29 10:45:54

阅读数 40516

评论数 3

原创 Git使用之——冲突解决一(git merge conflict)

由于在local做了改动,在执行git merge upstream/master出现conflict。现总结解决方法: 首先参考: http://yodalee.blogspot.com/2013/03/vimdiffgit-merge-conflict_28.html 使用vimdiff來解...

2013-11-02 00:10:17

阅读数 118886

评论数 4

原创 已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy

1.代码升级 之前的问题: 随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。 但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,...

2014-09-07 16:19:31

阅读数 6410

评论数 2

原创 关于提高效率的几点

有些时候感觉一直没闲着却没看见多少成果。突然看见

2014-08-21 20:36:45

阅读数 3531

评论数 0

原创 关于CSDN几点用户体验较差的功能(收藏夹和草稿箱)

1. 收藏夹不去重。同一专栏或博客每点一次“收藏”都会增加到收藏夹中。 收藏内容一般有两种形式: (1)专栏收藏。 (2)博客文章收藏。 对于前者,虽然专栏的文章数量可能是不断在增加的,但是专栏地址是不变的。后者类似。由于收藏是以“标题+链接”形式实现的。那么通过文章/专栏地址进行去重是可...

2014-08-17 21:53:44

阅读数 4555

评论数 0

转载 程序员能力矩阵

注意:每个层次的知识都是渐增的,位于层次n,也蕴涵了你需了解所有低于层次n的知识。 计算机科学 Computer Science   2n (Level 0) n2 (Level 1) n (Level 2) log(n) (Level 3)...

2014-08-05 12:30:55

阅读数 3511

评论数 0

原创 一淘搜索之网页抓取系统分析与实现(4)- 实现&总结

以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有: 1. 分布式crawler与分布式pipeline处理。 使用scrapy+redis实现,用到了scrapy...

2014-07-30 20:19:23

阅读数 4797

评论数 1

原创 资料整理

scrapy: (1)http://my.oschina.net/u/1024140/blog/

2014-07-28 15:00:48

阅读数 4346

评论数 0

原创 一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django

结构图 scrapy+webkit: 如结构图③。 scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash. 关于scrapy+webkit的使用后期进行分析。 scrapy+...

2014-07-28 11:42:58

阅读数 7282

评论数 2

原创 一淘搜索之网页抓取系统分析与实现(2)—redis + scrapy

1.scrapy+redis使用 (1)应用 这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。 图1 架构图 (2)为什么选择redis redis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓...

2014-07-28 11:36:38

阅读数 6596

评论数 0

原创 一淘搜索之网页抓取系统分析与实现(1)—redis使用

原创文章,链接: 1.redis使用 (1)应用 redis在抓取系统中主要承担两方面的责任,其一是作为链接存储数据库,其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(url)”中阐述。 (2)为什么选择redis redis的特性体现在“...

2014-07-28 11:31:08

阅读数 6320

评论数 0

原创 怎样编写scrapy扩展

原创文章,链接: 在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。 扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默...

2014-07-28 11:14:19

阅读数 7794

评论数 1

原创 scrapy-redis源码分析

原创文章,链接: (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重,实现的很有技巧性,使用red...

2014-07-28 11:02:33

阅读数 11928

评论数 9

原创 scrapy爬取深度设置

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。 ...

2014-07-28 10:55:05

阅读数 16760

评论数 1

转载 数据分析站点导航

中文互联网数据资料来源   平台机构 易观国际 互联网信息中心 淘宝数据平台 百度数据研究中心 艾瑞咨询 电子商务研究中心 IDC中国 百度数据中心 ...

2014-07-26 10:30:44

阅读数 3648

评论数 0

原创 scrapy-redis实现爬虫分布式爬取分析与实现

一 scrapy-redis实现分布式爬取分析 所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.r...

2014-07-24 20:21:19

阅读数 33616

评论数 5

原创 升级scrapy-redis代码,使与更新版本scrapy兼容

scrapy-redis的安装要求是scrapy版本高于0.14,是

2014-07-24 16:59:34

阅读数 9535

评论数 1

原创 redis研究笔记

一. redis Redis is an in-memory database that persists on disk. The data model is key-value, but many different kind of values are supported: String...

2014-07-24 08:07:58

阅读数 4503

评论数 0

转载 小米开源

作为一款Android系的产品,小米手机天然具有开源的基因。小米的MIUI系统,被认为是利用开源Android操作系统的成功典范。最新的小米路由器,也使用了路由器端著名的开源OpenWRT系统。除此之外,小米在日志框架、服务框架、HTTP Web框架、消息队列、搜索、分布式缓存、存储业务、监控报警...

2014-07-23 10:23:01

阅读数 6985

评论数 0

原创 scrapy-redis实现scrapy分布式爬取分析

(1)在“http://www.zhihu.com/question/20899988”中,提到的: “那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢? 我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,...

2014-07-22 20:19:51

阅读数 7976

评论数 0

原创 使用Git分支协同开发

原创,文章链接: 大型软件项目开发中,多分支的使用不仅能够并行开发多模块任务,也避免了Bug修正时引入新功能代码或是误删Bug代码造成以修复问题重现,更清晰的‘组织’项目的开发。 新建的分支一般都属于以下三个范畴内:发布分支(Bugfix分支)、特性分支和卖主分支。   一、发布分支 发布分支主要...

2014-07-19 18:44:43

阅读数 5761

评论数 1

原创 智能指针tr1::shared_ptr、boost::shared_ptr使用

对于tr1::shared_ptr在安装vs同时会自带安装,但是版本较低的不存在。而boost作为tr1的实现品,包含 “Algorithms Broken Compiler Workarounds Concurrent Programming Containers Correctness and...

2014-07-19 17:57:29

阅读数 4288

评论数 0

转载 为什么C++编译器不能支持对模板的分离式编译

转自: 首先,一个编译单元(translation unit)是指一个.cpp文件以及它所#include的所有.h文件,.h文件里的代码将会被扩展到包含它的.cpp文件里,然后编译器编译该.cpp文件为一个.obj文件(假定我们的平台是win32),后者拥有PE(Portable Execut...

2014-07-15 14:45:19

阅读数 3381

评论数 0

转载 reStructuredText

reStructuredText 简明教程 060724 17:58 作者: Laurence 邮箱: 2999am@gmail.com ID: Kardinal @ Ubuntu.org.cn论坛 版权: ...

2014-07-13 21:54:18

阅读数 12786

评论数 0

原创 读《搜索引擎技术基础》

为了更深入的了解与应用爬虫,花了一些时间读了清华大学和百度联合出版的《搜索引擎技术基础》。一直没有整理过这种专业性或技术类别的书,是因为涉及到的内容太多,不懂得也太多,根本整理不出来不如直接看书。但是对于这本书来说,本着了解的态度看,自然没有深究其中的某些晦涩的内容。下面以写下来的方式贯穿下自己的...

2014-07-10 21:57:10

阅读数 4152

评论数 0

转载 20个博客SEO优化技巧

SEO优化也就是搜索引擎优化,搜索引擎优化也就是博客内容被搜索引擎收录及优先排序,以此增加博客的点击率和曝光度,最终提升博客的综合能力。写博客的人,内容不仅要对用户友好,让大部分人都能看懂,而且也要对搜索引擎友好。这里主要介绍下卢松松常用的博客SEO优化技巧。 1:博客要经常保持更新,文字始...

2014-07-08 23:17:39

阅读数 4047

评论数 0

原创 matplotlib研究

最近在研究Scrapy (链接) 过程中抓取并分析了有关淘宝爆款的数据 (分析:代码:) ,在分析可视化的过程中使用到了matplotlib,最初对其认识还是在《使用python进行数据分析》一书中。matplotlib作为一个依托与Numpy并使用python编写的2D会图库(也包含3D图形的绘...

2014-07-08 14:09:45

阅读数 3507

评论数 0

转载 淘宝技术牛p博客整理

转自 淘宝技术委员会是由淘宝技术部高级技术人员组成的一个组织,共分为Java分会、C/C++分会、算法分会:数据分会:UED分会、测试分会、系统分会七个分会。 淘宝技术委员会的愿景是淘宝成为技术人才向往的乐土,高级技术人员的发源地;技术委员会的使命是帮助淘宝建立业界一流的技术团...

2014-07-07 17:48:01

阅读数 7267

评论数 0

原创 一些小技巧(来自《SEO实战密码》)

晚上图书馆借书,突然发现了这本书,翻了一下,被有些有意思的东西

2014-07-05 16:50:27

阅读数 4027

评论数 0

原创 Git协同工作之——非快进式推送

非快进推送(non-fast-forwardupdates)在远程版本库和当前版本库内容不一致时推送所致,引起原因一般为在多成员协同工作下,其他用户在当前用户版本库上次commit和本次commit之间向远程版本库执行了推送所致。 出现非快进式推送的日志: 图1 这是我们可以...

2014-06-30 21:42:07

阅读数 5595

评论数 1

原创 《如何阅读一本书》读后

读时做的笔记。

2014-06-30 12:23:46

阅读数 3997

评论数 0

原创 Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)

一.目的。 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及...

2014-06-26 21:31:17

阅读数 47008

评论数 4

转载 PYTHON风格规范——Google 开源项目风格指南

Python风格规范 分号 Tip 不要在行尾加分号, 也不要用分号将两条命令放在同一行. 行长度 Tip 每行不超过80个字符 例外: 长的导入模块语句注释里的URL 不要使用反斜杠连接行. Python会将 圆括号, 中括...

2014-06-26 08:49:58

阅读数 5660

评论数 0

原创 Scrapy研究探索(五)——自动多网页爬取(抓取某人博客所有文章)

首先,在教程(三)()中

2014-06-25 20:20:23

阅读数 48645

评论数 9

原创 Scrapy研究探索(四)——中文输出与中文保存

提取网页中中文并输出或者是保存时经常会吃

2014-06-25 17:23:23

阅读数 22215

评论数 0

原创 Scrapy研究探索(三)——Scrapy核心架构与代码运行分析

学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破。理论永远是基础,切记“勿在浮沙筑高台”。 一. 核心架构 关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。 英文有障碍可...

2014-06-25 16:37:11

阅读数 23187

评论数 2

原创 scrapy研究探索(二)——爬w3school.com.cn

下午被一个问题困扰了好一阵,最终使用另一种方式解决。 开始教程二,关于Scrapy安装、介绍等请移步至教程(一)(http://blog.csdn.net/u012150179/article/details/32343635)。 在开始之前假设你已经成功安装一切所需,整怀着一腔热血想要抓取某...

2014-06-21 09:50:13

阅读数 46712

评论数 21

原创 Scrapy研究探索(一)——基础入门

一.Scrapy介绍 二.知识准备 三.

2014-06-19 20:52:32

阅读数 31506

评论数 0

原创 各大企业都在用什么语言/框架

众所周知,不同语言都有特定的适用放下

2014-06-14 13:57:11

阅读数 5573

评论数 0

提示
确定要删除当前文章?
取消 删除