scrapy
寒木
这个作者很懒,什么都没留下…
展开
-
scrapy 抓取js生成页
scrapy结合webkit抓取js生成的页面 1 scedule scrapy 作为抓取框架,包括了spider,pipeline基础设施 2 webkit scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓转载 2013-12-24 10:12:04 · 1387 阅读 · 0 评论 -
scrapy 架构详解
一、概述 下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。 二、组件 1、Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。 2、Scheduler(调度)转载 2013-12-24 11:23:13 · 1276 阅读 · 0 评论 -
scrapy 架构详解二
忘记scrapy,一般所说的爬虫工作分为两个部分,downoader 和 parser: downloader输入是url列表,输出抓取到的rawdata,可能时候是html源代码,也可能是json,xml格式的数据。 parser输入是第一部分输出的rawdata,根据已知的规则提取所需的info 图1. 简单爬虫 图1所示的是最简单的爬虫,不考虑解析u转载 2013-12-26 20:29:10 · 1445 阅读 · 0 评论