python-scrapy爬虫框架

最新推荐文章于 2024-04-24 15:50:50 发布

秘境之眼

最新推荐文章于 2024-04-24 15:50:50 发布

阅读量323

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TxyITxs/article/details/94437481

版权

scrapy爬虫框架

1.Scrapy爬虫框架

scrapy 不是一个函数功能库，而是一个爬虫框架。
scrapy爬虫框架：
1. 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
2. .简单说爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。
scrapy爬虫框架共包含七个部分（5+2结构），五个主体部分，两个中间件。数据流如图。
框架的入口SPIDERS，出口为ITEM PIPELINES，DOWNLOADER，ENGIN,SCHEDULER模块已经实现了，用户只需要编写ITEM PIPELINES和SPIDERS模块。SPIDERS提供需要访问的url链接，同时对网页进行解析，而ITEM PIPELINES对页面的后处理。
这种对模块代码的编写方式，也可以叫做配置。

2.模块介绍

Engin：控制所有模块之间的数据流，根据条件触发事件，不需要用户修改。
Downloader：根据请求下载页面，不需要用户修改。
Scheduler：对所有爬取请求进行调度管理，不需要用户修改。
中间件模块Downloader Middleware
1. 实施Engin，Scheduler和Downloader之间用户可配置的控制。
2. 通过中间件修改，丢弃，新增请求或响应。
Spider：解析Downloader返回的响应（Response），产生爬取项（scraped item）和爬取请求（Requset），是最核心单元，是需要用户编写主要模块。
Item Piplines:以流水线方式处理Spide产生的爬取项。有一组操作顺序组成，每个操作是一个Item Pipline类型。包括清理，检验和查重爬取项中的ITEM数据，将数据存储到数据库等操作。需人工配置。
Spider Middleware：
1. 对请求和爬取项再处理。
2. 通过中间件修改，丢弃，新增请求或爬取项。

3.requests库与Scarpy

相同点:都可以进行网页请求和爬取，是python的两个重要的爬虫实现路线；可用性好；都没有处理js，提交表单，应对验证码的功能；

requests VS. scrapy
requests	scrapy
网页级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能差	并发性好，性能较高
重点在页面下载	重点在爬虫结构
定制灵活	一般定制灵活，深度定制难
上手简单	入门稍难

小需求，推荐使用requests库，不太小的推荐使用scrapy框架。自搭框架建议使用requests。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秘境之眼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。