浅析爬虫框架scrapy

最新推荐文章于 2023-05-15 13:21:38 发布

秋水中的鱼

最新推荐文章于 2023-05-15 13:21:38 发布

阅读量197

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43435274/article/details/103207175

版权

定义

scrapy框架作为一种异步处理框架,可配置和可扩展程度非常高,是在Python中使用最广泛的爬虫框架.

安装

Ubuntu安装
1、安装依赖包(ubuntu18.04可以跳过此步)
1、sudo apt-get install libffi-dev
2、sudo apt-get install libssl-dev
3、sudo apt-get install libxml2-dev
4、sudo apt-get install python3-dev
5、sudo apt-get install libxslt1-dev
6、sudo apt-get install zlib1g-dev
7、sudo pip3 install -I -U service_identity

2、安装scrapy框架
1、sudo pip3 install Scrapy

#Windows安装
cmd命令行(管理员): python -m pip install Scrapy
#Error: Microsoft Visual C++ 14.0 is required xxx(需先装Microsoft Visual C++ )

Scrapy框架五大组件

1、引擎(Engine):整个框架核心
2、调度器(Scheduler) :维护请求队列
3、下载器(Downloader):获取响应对象
4、爬虫文件(Spider) :数据解析提取
5、项目管道(Pipeline):数据入库处理

#下载器中间件(Downloader Middlewares) : 引擎->下载器,包装请求(随机代理等)
#蜘蛛中间件(Spider Middlewares) : 引擎->爬虫文件,可修改响应对象属性

在这里插入图片描述

scrapy爬虫工作流程

爬虫项目启动
1、由引擎向爬虫程序索要第一个要爬取的URL,交给调度器去入队列
2、调度器处理请求后出队列,通过下载器中间件交给下载器去下载
3、下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
4、爬虫程序进行数据提取:

1、数据交给管道文件去入库处理
2、对于需要继续跟进的URL,再次交给调度器入队列,依次循环

秋水中的鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。