Python 中scrapy 的框架安装以及简单介绍

最新推荐文章于 2023-06-07 17:49:49 发布

贾明豪

最新推荐文章于 2023-06-07 17:49:49 发布

阅读量177

点赞数

本文链接：https://blog.csdn.net/qq_42543314/article/details/81346912

版权

一、Scrapy的安装

1. 如果电脑中安装有Anaconda 直接输入conda install scrapy 进行安装.

2. 如果没有安装Anaconda,就需要进入http://www.lfd.uci.edu/~gohlke/pythonlibs/，从该网站找到lxml的相关文件。假如是Python3.5版本，WIndows 64位系统，那就找到lxml‑3.7.2‑cp35‑cp35m‑win_amd64.whl 这个文件并下载，然后在终端里输入pip install + 上面下载的文件(找到文件,拖拽到终端即可)。再执行命令conda install scrapy

3测试是否安装成功输出scrapy按回车键现实下图即安装成功

二、框架介绍

在安装了scrapy之后，要设置创建的项目地址通过cd加上空格的形式将文件拉进去

在pycharm中打开,项目结构如图

各部分组件介绍

（1）Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
（2）Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
（3）Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
（4）Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
（5）Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.（6）Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
（7）Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）