爬虫学习总结一

最新推荐文章于 2022-08-12 16:53:16 发布

Roy0608

最新推荐文章于 2022-08-12 16:53:16 发布

阅读量397

点赞数

分类专栏： python 文章标签：爬虫学习 Scrapy框架

本文链接：https://blog.csdn.net/Roy0608/article/details/102390528

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

爬虫学习：一. Scrapy框架简介

1. Scrapy框架图
2. 新建一个基于Scrapy框架的爬虫项目
- 安装Scrapy框架
- 新建Scrapy爬虫项目

1. Scrapy框架图

在进行爬虫之前，先学习一下爬虫的Scrapy框架，Scrapy框架是一个用 Python 实现的为了爬取网站数据、提取结构性数据的应用框架。其使用Twisted异步网络库来处理网络通讯，可以高效（爬取效率和开发效率）完成网站数据爬取任务，下面是Scrapy框架图：

六大组件

Scrapy框架主要分为：引擎（Scrapy Engine）、调度器（Scheduler）、下载器（Downloader）、爬虫（Spider）、实体管道（item Pipeline）、中间件（Middlewares）这六个组件，下面对这六个组件的功能一一介绍：

引擎（Scrapy Engine）

Scrapy引擎是整个框架的核心，它用来控制调试器、下载器，爬虫，实体管道，中间件。实际上，引擎相当于计算机的CPU，它控制着整个流程，负责各组件之间的通信及数据传递等。

调度器（Scheduler）

负责接收引擎发送过来的Request请求，并按照一定的方式进行整理排列、入队，当引擎需要时，交还给引擎。简而言之，可以把它假设成为一个URL的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址。

下载器（Downloader）

负责下载引擎（Scrapy Engine）发送的所有Requests请求，并将其获取到的Responses交还给引擎（Scrapy Engine），由引擎交给Spider来做进一步的处理。在Scrapy框架中，下载器负担最大，但它仍可以高效地下载网络上的资源，这主要得益于使用Twisted这个高效地异步模型。

爬虫（Spider）

用户可以根据自己的需求来定制爬虫，用于从特定的网页中提取自己需要的信息，即所谓的Item实体，并将需要跟进的URL提交给引擎，再次进入调度器（Scheduler）。

实体管道（item Pipeline）

用于处理爬虫中提取的Item实体，并进行进行后期处理（详细分析、过滤、存储等）的地方。

中间件（Middlewares）

分为下载中间件（Downloader Middlewares）和爬虫中间件（Spider Middlewares）两部分：
下载中间件（Downloader Middlewares）自定义扩展引擎和下载中间的组件。
爬虫中间件（Spider Middlewares）自定义扩展、操作引擎和爬虫中间通信的功能组件。

2. 新建一个基于Scrapy框架的爬虫项目

安装Scrapy框架

（1）打开CMD，输入 pip install scrapy，即可安装。

（2）可以输入 scrapy 来测试是否安装成功。

新建Scrapy爬虫项目

（1）创建项目：scrapy startproject 项目名

（2）创建爬虫：按照提示，首先cd FirstSpider，然后scrapy genspider 爬虫名爬虫的域（即需要爬虫的网站，这里我们爬一下贴吧，！！！注意，爬虫名和项目名不能一样）

（3）项目目录结构：打开pycharm，找到项目的创建路径，大体目录结构如下：

至此，一个基于Scrapy框架的爬虫项目已经初步建立，下一章，将对python吧做一个简单的爬虫。

Roy0608

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习总结一

爬虫学习：一. Scrapy框架简介1. Scrapy框架图六大组件引擎*（Scrapy Engine*）调度器（Scheduler）下载器（Downloader）爬虫（Spider）实体管道（item Pipeline）中间件（Middlewares）2. 新建一个基于Scrapy框架的爬虫项目安装Scrapy框架新建Scrapy爬虫项目1. Scrapy框架图在进行爬虫之前，先学习一下爬虫...
复制链接

扫一扫