scrapy架构

最新推荐文章于 2024-04-28 21:43:22 发布

孟玄同mxy

最新推荐文章于 2024-04-28 21:43:22 发布

阅读量94

点赞数

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44268986/article/details/119147879

版权

Scrapy是一个快速功能强大的网络爬虫框架

scrapy的安装

pip install scrapy

构架结构

5+2结构
1.Engine
(1) 控制所有模块之间的数据流
(2) 根据条件触发事件
不需要用户修改
2.Downloader
根据请求下载网页
不需要用户修改
3.Scheduler
对所有爬取请求进行调度管理
不需要用户修改
4.Downloader Middleware
目的：实施Engine、Scheduler和Downloader
之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应
用户可以编写配置代码
5.Spider
(1) 解析Downloader返回的响应（Response）
(2) 产生爬取项（scraped item）
(3) 产生额外的爬取请求（Request） “5+2”结构
需要用户编写配置代码
6.Item Pipelines
(1) 以流水线方式处理Spider产生的爬取项
(2) 由一组操作顺序组成，类似流水线，每个操
作是一个Item Pipeline类型
(3) 可能操作包括：清理、检验和查重爬取项中
的HTML数据、将数据存储到数据库

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy架构

Scrapy是一个快速功能强大的网络爬虫框架scrapy的安装pip install scrapy构架结构5+2结构1.Engine(1) 控制所有模块之间的数据流(2) 根据条件触发事件不需要用户修改2.Downloader根据请求下载网页不需要用户修改3.Scheduler对所有爬取请求进行调度管理不需要用户修改4.Downloader Middleware目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制功能：修改、丢弃、新增请
复制链接

扫一扫

专栏目录

博客等级

码龄6年

7
原创

1
点赞

2
收藏

1
粉丝

关注

私信

热门文章

分类专栏

爬虫 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。