scrapy基本介绍及运行原理

Scrapy框架

1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途广泛。

2 用户只需要定制开发的几个模块就能轻松实现一个爬虫,用来抓取网页内容、图片。

3 scrapy使用Twisted[twistrd](其主要对手是tornado)异步网络框架来处理网络通讯可以加快下载速度,不用自己实现一部框架,并且包含了各种中间件可以灵活的完成各种的需求

Scrapy组件介绍

1 Scrapy Engine(引擎):负责spider、itempipline、Downloader、scheduler中间的通讯,信号、数据传递等。

2 Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时交还给引擎。

3 Downloader(下载器):负责下载scrapy Engne(引擎)发送过来的所有requests请求,并将获取到的responses交换给scrapy Engine,有引擎交给spider来处理。

4 spider(蜘蛛):负责处理所有responses,从中分析提取数据,获取item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入调度器。

5 itempipline(管道):负责处理spider中获取到的item,并进行后期处理(详细分析、过滤、储存等)的地方

6 spider middlewares(spider中间件):可以自定义扩展、操作引擎和spider中间 通信  的功能组件。(比如进入spider和Responses,和从spoider出去的requests)

 

crapy架构图(绿线是数据流向)

 

 

 

 

 

Scrapy运行流程

引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。

引擎通知调度器,调度器得到通知将URL排序入队,并加以处理。

引擎通知调度器,调度器将处理好的request返回给引擎

引擎接收到request后告诉下载器,按照setting中配置的顺序下载这个request的请求

下载器收到请求,将下载好后的东西返回给引擎。如果下载失败,下载器会通知引擎,引擎再通知调度器,调度器收到消息后会记录这个下载失败的request。

引擎得到下载好的东西后,通知spider(这里responses默认是交给def parse()函数处理)

7 Spider收到通知后,处理接收的数据

8 Spider处理完数据后返回给引擎两个结果:一个是需要跟进的URL,另一个是获取到的item数据。

引擎将接收到的item数据交给管道处理,将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
提供的源码资源涵盖了小程序应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
Scrapy是一个纯Python实现的应用框架,用于爬取网站数据和提取结构化数据。它具有以下优势: 1. 简单易用:用户只需要定制开发几个模块,就可以轻松地实现一个爬虫,用于抓取网页内容和图片等。 2. 高效快捷:Scrapy使用了Twisted异步网络框架来处理网络通讯,加快网页下载速度。它还提供了各种中间件接口,能够灵活地满足各种需求。 Scrapy框架的运行和部署可以通过Scrapyd来管理。Scrapyd是一个用于管理Scrapy的部署和运行的服务程序。它通过发送请求来控制Scrapy项目的运行、停止、结束或删除等操作。同时,Scrapyd还可以管理多个爬虫,方便我们部署Scrapy并查看爬虫日志。 如果想在Django中运行Scrapy框架,可以参考一些示例代码。这些示例代码详细介绍了如何在Django中集成和运行Scrapy框架,对于学习和工作具有一定的参考价值。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [scrapy爬虫框架及运行流程](https://blog.csdn.net/weixin_42213622/article/details/106138594)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [笔记十五:如何使用scrapyd去部署和运行scrapy框架](https://blog.csdn.net/qq_41082423/article/details/82876939)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [如何在django中运行scrapy框架](https://download.csdn.net/download/weixin_38613548/12853073)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值