younghz

不论怎样,保持前进。

关于“淘宝爆款”的数据抓取与数据分析

数据爬取 爬取对象:淘宝“连衣裙 夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。 工具:Scrapy。Repository内容即为当时实现的代码。 数据分析 分析内容可见此Repository的Wiki。也可见上面问题链接。 工具:ipython & matplotlib。 ...

2014-07-06 09:44:02

阅读数:20746

评论数:3

Scrapy研究探索(七)——如何防止被ban之策略大集合

话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。如下: 敌退我进,敌攻我挡。 本篇博客主要研究使用防止被ban的几大策略以及在scrapy中的使用。 1.策略一:设置download_delay 这个在之前的教程中已经使用...

2014-06-29 10:45:54

阅读数:35960

评论数:3

已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy

1.代码升级 之前的问题: 随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。 但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,...

2014-09-07 16:19:31

阅读数:6228

评论数:2

资料整理

scrapy: (1)http://my.oschina.net/u/1024140/blog/

2014-07-28 15:00:48

阅读数:4274

评论数:0

怎样编写scrapy扩展

原创文章,链接: 在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。 扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默...

2014-07-28 11:14:19

阅读数:7513

评论数:2

scrapy爬取深度设置

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。 ...

2014-07-28 10:55:05

阅读数:15264

评论数:1

scrapy-redis实现scrapy分布式爬取分析

(1)在“http://www.zhihu.com/question/20899988”中,提到的: “那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢? 我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,...

2014-07-22 20:19:51

阅读数:7708

评论数:0

Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)

一.目的。 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及...

2014-06-26 21:31:17

阅读数:44016

评论数:4

PYTHON风格规范——Google 开源项目风格指南

Python风格规范 分号 Tip 不要在行尾加分号, 也不要用分号将两条命令放在同一行. 行长度 Tip 每行不超过80个字符 例外: 长的导入模块语句注释里的URL 不要使用反斜杠连接行. Python会将 圆括号, 中括...

2014-06-26 08:49:58

阅读数:5565

评论数:0

Scrapy研究探索(五)——自动多网页爬取(抓取某人博客所有文章)

首先,在教程(三)()中

2014-06-25 20:20:23

阅读数:43133

评论数:10

Scrapy研究探索(四)——中文输出与中文保存

提取网页中中文并输出或者是保存时经常会吃

2014-06-25 17:23:23

阅读数:20668

评论数:0

Scrapy研究探索(三)——Scrapy核心架构与代码运行分析

学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破。理论永远是基础,切记“勿在浮沙筑高台”。 一. 核心架构 关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。 英文有障碍可...

2014-06-25 16:37:11

阅读数:22020

评论数:2

scrapy研究探索(二)——爬w3school.com.cn

下午被一个问题困扰了好一阵,最终使用另一种方式解决。 开始教程二,关于Scrapy安装、介绍等请移步至教程(一)(http://blog.csdn.net/u012150179/article/details/32343635)。 在开始之前假设你已经成功安装一切所需,整怀着一腔热血想要抓取某...

2014-06-21 09:50:13

阅读数:43959

评论数:21

Scrapy研究探索(一)——基础入门

一.Scrapy介绍 二.知识准备 三.

2014-06-19 20:52:32

阅读数:28669

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭