scrapy
寒木
这个作者很懒,什么都没留下…
展开
-
scrapy 抓取js生成页
scrapy结合webkit抓取js生成的页面1 scedulescrapy 作为抓取框架,包括了spider,pipeline基础设施2 webkitscrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓转载 2013-12-24 10:12:04 · 1431 阅读 · 0 评论 -
scrapy 架构详解
一、概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)转载 2013-12-24 11:23:13 · 1314 阅读 · 0 评论 -
scrapy 架构详解二
忘记scrapy,一般所说的爬虫工作分为两个部分,downoader 和 parser:downloader输入是url列表,输出抓取到的rawdata,可能时候是html源代码,也可能是json,xml格式的数据。parser输入是第一部分输出的rawdata,根据已知的规则提取所需的info图1. 简单爬虫 图1所示的是最简单的爬虫,不考虑解析u转载 2013-12-26 20:29:10 · 1476 阅读 · 0 评论