scrapy框架解析

最新推荐文章于 2024-08-05 20:06:05 发布

r_martian

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量478

点赞数

分类专栏： Python与网络爬虫文章标签： scrapy 框架数据流

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjqh_hao/article/details/82861784

版权

Python与网络爬虫专栏收录该内容

20 篇文章 1 订阅

订阅专栏

1 Scrapy框架
Scrapy是为爬取网站数据，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等方面。

2 Scrapy框架图

scrapy框架

Scrapy数据流是由执行的核心引擎(engine)控制，流程是这样的：

1、爬虫引擎获得初始请求开始抓取。
2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。
3、爬虫调度器返回下一个请求给爬虫引擎。
4、引擎请求发送到下载器，通过下载中间件下载网络数据。
5、一旦下载器完成页面下载，将下载结果返回给爬虫引擎。
6、引擎将下载器的响应通过中间件返回给爬虫进行处理。
7、爬虫处理响应，并通过中间件返回处理后的items，以及新的请求给引擎。
8、引擎发送处理后的items到项目管道，然后把处理结果返回给调度器，调度器计划处理下一个请求抓取。
9、重复该过程（继续步骤1），直到爬取完所有的url请求。

3 数据流图

绿色箭头代表数据流向
在这里插入图片描述

参考文档
https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

r_martian CSDN认证博客专家 CSDN认证企业博客

码龄10年

247: 原创

1万+: 周排名

5529: 总排名

42万+: 访问

: 等级

6111: 积分

156: 粉丝

311: 获赞

78: 评论

511: 收藏

私信

关注

热门文章

分类专栏

最新评论

【算法】LRU置换算法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
广告的定义及其目的
魏小言: https://blog.csdn.net/qq_34417408/article/details/128670077?spm=1001.2014.3001.5502 广告 ADX 系统实现
【工具】pt-online-schema-change
Jesse_89: 我想问下这个工具，在数据迁移过程中，一部分数据已经迁移到new表当中，这时候用户还是查的还是old表，查不到用户的数据，还是对业务有影响吧？
广告位置拍卖与机制设计
r_martian: 就我所接触的，就是每个广告位按GSP规则选出对应的广告，没有遇到先公布的情况
广告位置拍卖与机制设计
m0_58814545: 您好，我想请教一个问题。在位置拍卖中，这S个位置的竞拍价格是一次性给出、拍卖结果是一次性公布的吧? 存不存在先公布最高价格，然后非最高出价人修改价格，再公布第二高价格, 依次进行......这种情况？

大家在看

简单介绍软件可靠性定义以及相关度量参数

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。