网络爬虫——初识爬虫框架Scrapy

db_sqp_2044

已于 2023-12-23 22:51:59 修改

阅读量950

点赞数 7

文章标签： python

于 2023-12-23 22:51:09 首次发布

本文链接：https://blog.csdn.net/nanfeng101/article/details/135116392

版权

使用Python语言开发的爬虫框架有很多，但是实现方式和原理大同小异，今天给大家介绍的是爬虫框架Scrapy。

初始Scrapy框架

Scrapy框架是用纯Python实现的一种开源爬虫框架，是为了更高效地爬取网站数据、提取结构性数据而编写地应用框架，用途非常广泛，可用于爬虫开发、数据挖掘、数据监控、自动化处理等领域。

Scrapy使用了Twisted异步网络框架来处理网络通信，该网络框架可以加快下载速度，同时包含了各种中间件接口，可以灵活地完成各种需求。

Scrapy框架的架构

Scrapy架构图如下：

Scrapy框架主要包含如下组件：

（1）Scrapy Engine（引擎）：负责Spiders、Item Pipeline、Downloader、Scheduler之间的通信，包括信号和数据的传递等。

（2）Scheduler（调度器）：负责接收引擎发送过来的Request请求，并按照一定的方式进行整理排列和入队，当引擎需要时，交还给引擎。

（3）Downloader（下载器）：负责下载Scrapy Engine发送的所有Requests（请求）；并将其获取到的Responses（响应）交还给Scrapy Engine，由Scrapy Engine交给Spider来处理。

（4）Spiders（爬虫）：负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler（调度器）。

（5）Item Pipeline（管道）：负责处理Spiders中获取到的Item数据，并进行后期处理（详细分析、过滤、存储等）。

（6）Downloader Middlewares（下载中间件）：是一个可以自定义扩展下载功能的组件。

（7）Spider Middlewares（Spider中间件）：是一个可以自定义扩展Scrapy Engine和Spiders 中间通信的功能组件（例如，进入Spiders的Responses和从Spiders出去的Requests）。

Scrapy的这些组件通力合作，共同完成整个爬取任务。架构图中的箭头是数据的流动方向，首先从初始URL开始，Scheduler会将其交给Downloader进行下载，下载之后会交给Spiders 进行分析。Spiders分析出来的结果有两种：一种是需要进一步爬取的链接，例如之前分析的 “下一页”的链接，这些会被传回Scheduler；另一种是需要保存的数据，它们被送到Item Pipeline，这是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。

Scrapy框架的基本操作

使用Scrapy框架制作爬虫一般需要以下4个步骤：

（1）新建项目（scrapy startproject xxx）：创建一个新的爬虫项目。

（2）明确目标（编写items.py）：明确想要爬取的目标。

（3）制作爬虫（spiders/xxspider.py）：制作爬虫，开始爬取网页。

（4）存储数据（pipelines．py）：存储爬取内容（一般通过管道进行）。

新建一个Scrapy项目

使用Scrapy框架制作爬虫的第一步，就是为爬虫创建一个新的Scrapy项目。需要在终端使用命令创建Scrapy项目，格式如下：

scrapy startproject 项目名称

命令执行完毕，就会自动生成若干文件和目录，下面介绍一下个个文件的作用：

（1）scrapy.cfg：配置文件，用于存储项目的配置信息。

（2）mySpider：项目的Python模块，将会从这里引用代码。

（3）items.py：实体文件，用于定义项目的目标实体。

（4）middlewares.py：中间件文件，用于定义Spider中间件。

（5）pipelines.py：管道文件，用于定义项目使用的管道。

（6）settings.py：设置文件，用于存储项目的设置信息。

（7）spiders：存储爬虫代码的目录。

明确爬取目标

Scrapy使用Item（实体）来表示爬取的数据，Scrapy框架提供了基类scrapy.Item用来表示实体数据，在PyCharm中打开mySpider目录下的items.py文件，可以看见Scrapy框架已经在items.py文件中自动生成了继承自scrapy.Item的MyspiderItem类。用户只需要修改MyspiderItem类的定义，为它添加属性即可。代码例子如下：

import scrapy
class MyspiderItem(scrapy.Item):
    name=scrapy.Field()
    title=scrapy.Field()
    info-scrapy.Field()

在上述代码中，为MyspiderItem类添加了3个属性：name、title和info，分别用于类中的姓名、级别和个人信息。

制作Spiders爬取网页

1.创建爬虫，代码例子如下：

scrapy genspider itcast "itcast.cn"

在PyCharm中打开mySpider/spiders目录，可以看到新创建的爬虫文件itcast.py。该文件的内容已经自动生成，具体如下：

#-*- coding:utf-8 -*- 
import scrapy 
class ItcastSpider(scrapy.Spider）：
    name='itcast'
    allowed_domains=['itcast.cn']
    start_urls=[http://itcast.cn/']
    def parse(self, response): 
        pass

2.运行爬虫，爬取网页

ItcastSpider类的代码修改完成后，就可以运行itcast爬虫来爬取网页。运行爬虫的命令格式如下：

scrapy crawl 爬虫名称

3.提取数据

通过前面两个步骤，已经成功爬取到了网页的源代码，下面就可以从源代码提取数据。要提取数据，首先需要观察页面源代码，定位目标数据，分析和了解目标数据的展示结构。分析并了解到目标数据的展示结构之后，就可以使用Scrapy支持的Xpath解析方式进行数据提取。之前在项目的mySpider/items.py目录下定义了MyspiderItem类，需要将该类引入到itcast.py文件中。然后修改ItcastSpider类的parse（）方法，将得到的数据封装成一个MyspiderItem对象，每个对象保存一个信息，再将所有的对象保存在一个列表items中。此时在命令行中使用scrapy crawl itcast命令再次运行爬虫，就可以看见控制台打印出获取到的对象信息。

总结

综上所述，Scrapy是一个功能强大、高效、灵活的Python爬虫框架，适用于数据挖掘、监测和自动化测试等多种应用场景。但在使用过程中需要注意其不足之处，并采取相应的措施加以改进和优化。

db_sqp_2044

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫——初识爬虫框架Scrapy

综上所述，Scrapy是一个功能强大、高效、灵活的Python爬虫框架，适用于数据挖掘、监测和自动化测试等多种应用场景。但在使用过程中需要注意其不足之处，并采取相应的措施加以改进和优化。
复制链接

扫一扫