scrapy入门
架构图
scrapy
scrapy执行流程
Scrapy各部分简介(暂不包括下载中间件和爬虫中间件)
- Scrapy Items
在自定义的Item类中指定需要抓取的内容,Item对象类似python字典,通过 字段名=scrapy.Field() 的方式进行新字段的定义
2 Spider
) spider的parse()方法:定义从engine处拿到的从下载器中得到response对象,一般在parse()中对response对象进行xpath解析,如果是url则需要继续交给engine并放入schedule中
如果是数据(则封装成item对象),则由engine交由管道pipeline进行处理(如持久化存储)
- Pipeline
自定义Pipeline类:在process_item()方法中指定从engine处接收的item数据对象的处理方式
需要注意的是process_item()方法必须向engine返回item对象作为响应内容