Scrapy入门知识

scrapy入门

架构图

scrapy架构图
scrapy

scrapy执行流程

scrapy的执行过程(详细版)

Scrapy各部分简介(暂不包括下载中间件和爬虫中间件)

  1. Scrapy Items
    在自定义的Item类中指定需要抓取的内容,Item对象类似python字典,通过 字段名=scrapy.Field() 的方式进行新字段的定义

2 Spider
) spider的parse()方法:定义从engine处拿到的从下载器中得到response对象,一般在parse()中对response对象进行xpath解析,如果是url则需要继续交给engine并放入schedule中
如果是数据(则封装成item对象),则由engine交由管道pipeline进行处理(如持久化存储)

  1. Pipeline
    自定义Pipeline类:在process_item()方法中指定从engine处接收的item数据对象的处理方式
    需要注意的是process_item()方法必须向engine返回item对象作为响应内容
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值