关闭

[置顶] 关于“淘宝爆款”的数据抓取与数据分析

数据爬取 爬取对象:淘宝“连衣裙 夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。 工具:Scrapy。Repository内容即为当时实现的代码。 数据分析 分析内容可见此Repository的Wiki。也可见上面问题链接。 工具:ipython & matplotlib。 分析内容 分析内容放在了Wiki中,链接:https://github.com/you...
阅读(15264) 评论(2)

[置顶] Scrapy研究探索(七)——如何防止被ban之策略大集合

话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。如下: 敌退我进,敌攻我挡。 本篇博客主要研究使用防止被ban的几大策略以及在scrapy中的使用。 1.策略一:设置download_delay 这个在之前的教程中已经使用过(http://blog.csdn.net/u012150179/article...
阅读(25961) 评论(1)

[置顶] Git使用之——冲突解决一(git merge conflict)

由于在local做了改动,在执行git merge upstream/master出现conflict。现总结解决方法: 首先参考: http://yodalee.blogspot.com/2013/03/vimdiffgit-merge-conflict_28.html 使用vimdiff來解決git merge conflict 最近同時家裡用筆電跟辦公室用桌電,在兩個地方使用git...
阅读(45735) 评论(0)

已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy

1.代码升级 之前的问题: 随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。 但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,甚至错误。 关于这个问题,我总结之后在scrapy-redis库中提了出来并开了issue和作者做了...
阅读(5496) 评论(2)

关于提高效率的几点

有些时候感觉一直没闲着却没看见多少成果。突然看见...
阅读(2999) 评论(0)

关于CSDN几点用户体验较差的功能(收藏夹和草稿箱)

1. 收藏夹不去重。同一专栏或博客每点一次“收藏”都会增加到收藏夹中。 收藏内容一般有两种形式: (1)专栏收藏。 (2)博客文章收藏。 对于前者,虽然专栏的文章数量可能是不断在增加的,但是专栏地址是不变的。后者类似。由于收藏是以“标题+链接”形式实现的。那么通过文章/专栏地址进行去重是可达到的。 2. 草稿箱编辑不方便。 CSDN博文的保存是通过按钮“立即保存”实现的,好像没...
阅读(3584) 评论(0)

程序员能力矩阵

注意:每个层次的知识都是渐增的,位于层次n,也蕴涵了你需了解所有低于层次n的知识。 计算机科学 Computer Science   2n (Level 0) n2 (Level 1) n (Level 2) log(n) (Level 3) Comments 数据结构 不知道数组和链表的差异 能够解释和使用数...
阅读(2953) 评论(0)

一淘搜索之网页抓取系统分析与实现(4)- 实现&总结

以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有: 1. 分布式crawler与分布式pipeline处理。 使用scrapy+redis实现,用到了scrapy+scrapy-redis。关于自己相关代码也在fork的repo做了探索与实现。 2. j...
阅读(4154) 评论(1)

资料整理

scrapy: (1)http://my.oschina.net/u/1024140/blog/...
阅读(3909) 评论(0)

一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django

结构图 scrapy+webkit: 如结构图③。 scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash. 关于scrapy+webkit的使用后期进行分析。 scrapy+django: 如结构图④。 django实现的配置界面主要是对抓取系统的管理和配置,...
阅读(6592) 评论(2)

一淘搜索之网页抓取系统分析与实现(2)—redis + scrapy

1.scrapy+redis使用 (1)应用 这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。 图1 架构图 (2)为什么选择redis redis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓取系统分析与实现(1)——redis使用》(url)中关于redis的分析。 2.redis...
阅读(5989) 评论(0)

一淘搜索之网页抓取系统分析与实现(1)—redis使用

原创文章,链接: 1.redis使用 (1)应用 redis在抓取系统中主要承担两方面的责任,其一是作为链接存储数据库,其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(url)”中阐述。 (2)为什么选择redis redis的特性体现在“内存数据库”和“KV”存储方式上,前者决定其性能,后者决定其存储内容的易于组织性。 reidis的使...
阅读(5829) 评论(0)

怎样编写scrapy扩展

原创文章,链接: 在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。 扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。...
阅读(6506) 评论(2)

scrapy-redis源码分析

原创文章,链接: (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...
阅读(10074) 评论(8)

scrapy爬取深度设置

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。 如图:...
阅读(11770) 评论(1)

数据分析站点导航

中文互联网数据资料来源   平台机构 易观国际 互联网信息中心 淘宝数据平台 百度数据研究中心 艾瑞咨询 电子商务研究中心 IDC中国 百度数据中心 计世资讯 互联网数据中心 智库数据 梅...
阅读(3412) 评论(0)

scrapy-redis实现爬虫分布式爬取分析与实现

一 scrapy-redis实现分布式爬取分析 所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。 在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来...
阅读(23281) 评论(5)

升级scrapy-redis代码,使与更新版本scrapy兼容

scrapy-redis的安装要求是scrapy版本高于0.14,是...
阅读(8514) 评论(1)
182条 共13页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1169699次
    • 积分:10806
    • 等级:
    • 排名:第1546名
    • 原创:105篇
    • 转载:77篇
    • 译文:0篇
    • 评论:92条
    新博客地址
    我的GitHub
    博客专栏
    最新评论