Python数据旅游之Scrapy框架

db_psk_2098

已于 2024-01-02 20:49:36 修改

阅读量1k

点赞数 16

文章标签： python 旅游 scrapy

于 2023-12-26 14:57:52 首次发布

本文链接：https://blog.csdn.net/2301_76170581/article/details/135221321

版权

一、引言

Scrapy是一个由Python语言开发的快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy广泛应用于网络爬虫、数据挖掘、信息自动抓取等领域，可以帮助开发人员快速地抓取大量的网页数据，并对抓取的数据进行清洗、处理、分析等操作。

在当今信息爆炸的时代，网络数据已经成为我们获取信息的重要来源。然而，如何在海量的数据中高效地提取所需的信息，却成为了一个挑战。Python的Scrapy框架就是为了解决这个问题而诞生的。Scrapy是一个强大的网络爬虫框架，它提供了丰富的工具和功能，使得开发人员能够轻松地构建高效的网络爬虫。

总之，Scrapy是一个功能强大、易于使用的网络爬虫框架，可以帮助开发人员快速地构建出高效、稳定的爬虫程序，从而更好地满足各种需求。

二、Scrapy框架优势（https://scrapy.org/）

1、简单易用：Scrapy提供了简洁的API，使得开发人员可以快速构建爬虫。它支持自动跟踪链接，并可以轻松地添加自定义的解析器、中间件、管道等，使得数据爬取、处理等操作能够并发执行。

简洁的API：Scrapy提供了简洁的API，使得开发人员可以快速地构建出满足需求的爬虫程序。Scrapy的API设计清晰、易于理解，使得开发人员可以快速上手，并且方便地进行扩展和定制。
自动跟踪链接：Scrapy支持自动跟踪链接，这意味着爬虫可以自动地抓取网页中的链接，并递归地抓取更多的页面。这个功能大大简化了爬虫的开发过程，并且提高了爬虫的效率和准确性。
自定义解析器、中间件、管道等：Scrapy支持自定义的解析器、中间件、管道等组件，使得开发人员可以根据自己的需求进行定制。这些组件使得开发人员可以灵活地处理数据爬取、处理等操作，以满足不同的业务需求。
并发执行：Scrapy采用了异步编程模型，支持数据爬取、处理等操作的并发执行。这大大提高了程序的效率和响应速度，使得爬虫可以更快地完成任务。
详细的文档和社区支持：Scrapy拥有详细的文档和活跃的社区，为开发人员提供了丰富的参考资料和帮助。社区中的其他用户也可以提供实际的经验分享和问题解答，使得开发人员可以更加顺利地使用Scrapy框架。

2、异步处理：Scrapy使用Twisted框架作为其事件驱动机制，使得数据爬取、处理等操作能够并发执行，提高了程序的效率和响应速度。

3、可扩展性强：Scrapy的架构设计使其易于扩展，你可以轻松地添加自定义的解析器、中间件、管道等。你可以将爬取的数据输出到CSV、JSON、SQL等格式，也可以将其发送到数据库或存储到NoSQL数据库中。（格式转化工具：https://spidertools.cn/#/）

自定义解析器、中间件、管道等：Scrapy的架构设计使其易于扩展，开发人员可以轻松地添加自定义的解析器、中间件、管道等组件。这些组件使得开发人员可以根据自己的需求进行定制，实现更加灵活的数据处理和操作。通过编写自定义的解析器，开发人员可以提取网页中的特定数据；通过编写中间件，可以对请求和响应进行拦截、修改或记录；通过编写管道，可以将爬取的数据输出到不同的格式或存储到不同的地方。
多种数据输出格式：Scrapy支持将爬取的数据输出到多种格式，如CSV、JSON、SQL等。这使得开发人员可以根据实际需求将数据导出到相应的格式，便于数据的存储和处理。通过简单的配置或编写代码，开发人员可以选择将数据输出到CSV文件、JSON文件、数据库或NoSQL数据库等。
与其他库和框架集成：Scrapy的架构设计使其易于与其他库和框架集成。例如，开发人员可以将Scrapy与数据库框架（如SQLAlchemy）或NoSQL数据库（如MongoDB）集成，将爬取的数据存储到数据库中；也可以将Scrapy与机器学习库（如Scikit-learn）集成，对爬取的数据进行进一步的分析和处理。这种集成能力使得Scrapy可以适应各种不同的场景和需求。
插件系统：Scrapy还提供了一个插件系统，使得开发人员可以轻松地扩展其功能。通过编写插件，开发人员可以添加新的功能或对现有功能进行修改。插件系统使得Scrapy更加灵活和可定制。

综上所述，Scrapy的架构设计使其具有强大的可扩展性。通过自定义组件、多种数据输出格式、与其他库和框架集成以及插件系统，开发人员可以轻松地扩展Scrapy的功能，满足各种不同的需求。这种可扩展性使得Scrapy成为一个非常灵活和强大的网络爬虫框架。

4、支持多种数据提取方式：Scrapy不仅支持CSS和XPath，还支持更复杂的数据提取方法。你可以通过编写简单的规则来提取所需的数据，也可以使用Scrapy内置的解析器来提取数据。

        【1】CSS选择器和XPath表达式：Scrapy默认支持CSS选择器和XPath表达式来进行数据提取。CSS选择器是一种用于选择HTML或XML文档中元素的语法，而XPath表达式则用于在XML文档中定位节点。通过编写CSS选择器或XPath表达式，开发人员可以方便地提取网页中的特定数据。

        CSS选择器：假设我们要提取一个网页中所有段落的文本内容，可以使用CSS选择器来定位到段落元素，并提取其文本内容。示例代码如下：

css('p::text').getall()

        XPath表达式：假设我们要提取一个网页中所有链接的URL，可以使用XPath表达式来定位到链接元素，并提取其href属性。示例代码如下：

xpath('//a/@href').getall()

        【2】正则表达式：除了CSS选择器和XPath表达式，Scrapy还支持使用正则表达式进行数据提取。正则表达式是一种强大的文本匹配工具，可以帮助开发人员匹配和提取网页中的特定内容。通过编写正则表达式，开发人员可以更加灵活地处理和提取网页中的数据。

        正则表达式：假设我们要从文本中提取电话号码，可以使用正则表达式来匹配特定的电话号码模式。示例代码如下：

import re
pattern = re.compile(r'\d{3}-\d{3}-\d{4}')
matches = pattern.findall(text)

        【3】编写解析函数：Scrapy还支持通过编写解析函数来提取数据。解析函数是一个Python函数，用于处理爬虫抓取的网页内容，并从中提取所需的数据。开发人员可以编写自己的解析函数来处理和提取数据，以满足特定的需求。

        解析函数：假设我们要提取一个网页中的标题，可以编写一个解析函数来处理网页内容，并提取标题。示例代码如下：

def parse(self, response):
title = response.css('title::text').get()
return {'title': title}

        【4】使用Item Loaders：Item Loaders是Scrapy中用于处理和提取数据的组件。通过使用Item Loaders，开发人员可以方便地组合多个数据提取方法，并进行数据清洗和处理。Item Loaders还支持使用过滤器来筛选和验证提取的数据，确保数据的准确性和完整性。

        Item Loaders：假设我们要提取多个数据项，可以使用Item Loaders来组合多个数据提取方法，并进行数据清洗和处理。示例代码如下：

from scrapy.loader import ItemLoader
from myproject.items import MyItem
l = ItemLoader(item=MyItem(), response=response)
l.add_css('name', 'div.name::text')
l.add_css('age', 'div.age::text')
return l.load_item()

        综上所述，Scrapy支持多种数据提取方式，包括CSS选择器、XPath表达式、正则表达式、解析函数和Item Loaders等。通过选择最适合的方法来提取数据，开发人员可以更加高效地爬取网页内容，并从中获取所需的数据。这种灵活性使得Scrapy成为一个功能强大的网络爬虫框架，能够适应各种不同的数据提取需求。

5、支持多种输出方式：你可以将爬取的数据输出到CSV、JSON、SQL等格式，也可以将其发送到数据库或存储到NoSQL数据库中。

1）CSV文件：

import csv  
  
def parse(self, response):  
    data = {'name': 'John Doe', 'age': 30}  
    with open('output.csv', 'w', newline='') as f:  
        writer = csv.DictWriter(f, fieldnames=data.keys())  
        writer.writeheader()  
        writer.writerow(data)

2）JSON文件：

import json  
  
def parse(self, response):  
    data = {'name': 'John Doe', 'age': 30}  
    with open('output.json', 'w') as f:  
        json.dump(data, f)

3）SQL数据库：可以使用Scrapy的中间件来与SQL数据库集成，例如使用scrapy-sqlalchemy库。以下是一个简单的示例：

from scrapy_sqlalchemy import SQLAlchemyMiddleware  
from myproject.models import MyModel  # Assuming you have a model defined in your project  
  
middleware = {  
    'myproject.middlewares.SqlAlchemyMiddleware': 54321,  # Insert the appropriate middleware class and position  
}  
  
settings = {  
    'SQLALCHEMY_DATABASE_URI': 'sqlite:///mydatabase.db',  # Set your database URI here  
}

4）NoSQL数据库：例如，你可以使用scrapy-mongodb库来将数据存储到MongoDB数据库中。首先，你需要安装这个库，然后配置Scrapy以使用它。以下是一个简单的示例：

from scrapy_mongodb import MongoOutputMiddleware  
from myproject.settings import MONGODB_URI  # Assuming you have your MongoDB URI defined in your settings module  
  
middleware = {  
    'myproject.middlewares.MongoDBMiddleware': 54321,  # Insert the appropriate middleware class and position  
}

5）Elasticsearch：可以使用scrapy-elasticsearch库将数据存储到Elasticsearch中。以下是一个简单的示例：

from scrapy_elasticsearch import ElasticsearchMiddleware  
from myproject.settings import ELASTICSEARCH_HOSTS  # Assuming you have your Elasticsearch hosts defined in your settings module  
  
middleware = {  
    'myproject.middlewares.ElasticsearchMiddleware': 54321,  # Insert the appropriate middleware class and position  
}

6、易于维护和调试：Scrapy提供了详细的日志记录功能，可以帮助你跟踪和调试爬虫的运行情况。你可以查看每个请求的状态、响应内容等信息，以便及时发现和解决问题。

7、支持多种协议：除了HTTP，Scrapy还支持HTTPS、FTP、LDAP等协议，使得爬虫可以抓取各种类型的网页。

8、支持多种网页编码：Scrapy可以处理各种网页编码，如UTF-8、ISO-8859-1等，使得爬虫可以正确地解析各种字符编码的网页。

9、支持自动跟踪链接：Scrapy可以自动跟踪网页中的链接，以便抓取更多的页面。你可以通过编写规则来指定哪些链接需要被跟踪，以便实现更精细的控制。

10、支持多种代理：你可以使用多种代理方式，如代理IP池、动态代理等，以避免被目标网站封禁IP地址。

三、Scrapy框架的核心组件

Scrapy核心思路：

引擎：负责控制爬虫的整个流程，包括请求调度、数据传输等。
爬虫：负责发送请求和接收响应，并根据解析结果生成新的请求。
解析器：负责解析响应内容，提取所需的数据。
管道：负责处理提取到的数据，包括数据清洗、存储等。

四、使用Scrapy框架进行数据抓取的步骤

<1>安装Scrapy框架：首先需要在本地环境中安装Scrapy框架。可以通过Python的包管理器pip进行安装。

在Windows上安装Scrapy：

打开命令提示符（CMD）或PowerShell。
运行以下命令来安装Scrapy：

在终端中：

pip install scrapy

这将使用pip包管理器从Python Package Index（PyPI）下载并安装Scrapy。

在macOS上安装Scrapy：

打开终端（Terminal）。
运行以下命令来安装Scrapy：

在终端中：

pip install scrapy

这将使用pip包管理器从PyPI下载并安装Scrapy。

在Linux上安装Scrapy：

打开终端（Terminal）。
运行以下命令来安装Scrapy：

在终端中：

sudo pip install scrapy

这将使用sudo权限运行pip包管理器，以超级用户权限从PyPI下载并安装Scrapy。

请注意，为了成功安装Scrapy，你的系统需要预先安装Python和pip。如果你使用的是Python虚拟环境，请确保在正确的虚拟环境中运行安装命令。

<2>创建爬虫项目：使用Scrapy命令行工具创建一个新的爬虫项目。这个过程会自动生成一些必要的文件和目录结构。

1. 打开命令行终端（Windows上的CMD或PowerShell，macOS和Linux上的Terminal）。

2. 导航到要创建项目的目录。例如，如果你想在桌面上创建一个名为"my_project"的项目，可以使用以下命令进入桌面目录：

在终端中：

cd ~/Desktop

3. 运行以下Scrapy命令创建新的爬虫项目：

在终端中：

scrapy startproject my_project

这将创建一个名为"my_project"的新目录，并在其中生成一些必要的文件和目录结构。这些文件和目录包括：

my_project/：项目根目录。
my_project/settings.py：项目的设置文件，用于配置Scrapy的相关参数。
my_project/spiders/：存放爬虫文件的目录。
my_project/items.py：定义要抓取的数据结构的文件。
my_project/pipelines.py：定义数据处理的管道的文件的目录。
my_project/middlewares.py：定义中间件的目录。

4. 现在，你可以在my_project/spiders目录下创建一个新的爬虫类。例如，创建一个名为"my_spider.py"的文件，并在其中编写爬虫逻辑。

<3>定义爬虫：在爬虫项目中创建一个新的爬虫类，定义需要抓取的网站URL、请求参数、数据处理逻辑等。

>1 打开你创建的爬虫项目的spiders目录，并创建一个新的Python文件。例如，我们可以创建一个名为"my_spider.py"的文件。在新创建的Python文件中，定义一个继承自Scrapy的Spider基类的爬虫类。例如：

import scrapy  
from scrapy.spiders import Spider  
  
class MySpider(Spider):  
    name = 'my_spider'  # 爬虫的名称，在命令行中通过该名称运行爬虫  
    start_urls = ['http://example.com']  # 需要抓取的起始URL列表

>2 在爬虫类中，你可以定义多个方法来处理HTTP请求和响应。其中最重要的是parse()方法，它是Scrapy框架默认调用的方法。你可以在该方法中编写数据处理逻辑，提取所需的数据。例如：

class MySpider(Spider):  
    name = 'my_spider'  
    start_urls = ['http://example.com']  
  
    def parse(self, response):  
        # 处理响应数据  
        # 提取所需的数据，例如使用XPath或CSS选择器定位元素  
        # ...  
        # 返回提取的数据（Item对象）或生成新的请求（Request对象）  
        pass

>3 你还可以定义其他方法来处理特定的URL路径或特定的响应类型。Scrapy框架会根据请求的URL和响应类型调用相应的方法。例如，你可以定义一个start_requests()方法来发送初始请求：

class MySpider(Spider):  
    name = 'my_spider'  
    start_urls = ['http://example.com']  
  
    def start_requests(self):  
        # 发送初始请求，可以添加请求参数等定制化操作  
        yield scrapy.Request('http://example.com', self.parse)

>4 除了parse()方法外，你还可以定义其他辅助方法来辅助数据处理或生成新的请求。例如，你可以定义一个extract_data()方法来提取数据：

class MySpider(Spider):  
    name = 'my_spider'  
    start_urls = ['http://example.com']  
  
    def parse(self, response):  
        # 处理响应数据并提取所需的数据  
        data = self.extract_data(response)  
        # 返回提取的数据（Item对象）或生成新的请求（Request对象）  
        yield data

>5 你可以根据需要定制爬虫的行为，包括定制化URL匹配规则、请求参数、处理响应和提取数据的方法等。通过编写相应的逻辑，你可以控制爬虫如何抓取网站数据。

<4>编写解析器：在爬虫类中编写解析器方法，用于解析网页内容并提取所需的数据。可以使用CSS选择器或XPath表达式进行数据定位。

<5>配置管道：定义数据的处理逻辑，包括数据清洗、存储等操作。可以使用Scrapy提供的管道组件，也可以自定义管道类。

<6>运行爬虫：通过Scrapy命令行工具运行爬虫项目，指定要抓取的网站URL和爬虫类名。爬虫会自动发送请求、解析响应并提取数据。

<7>查看抓取结果：Scrapy框架提供了丰富的日志输出和数据展示功能，可以在终端或Web界面中查看抓取结果。

五、总结

Scrapy框架作为Python中强大的网络爬虫工具，具有简单易用、灵活性强、可扩展性好等优点。通过使用Scrapy框架，开发人员可以快速构建高效的网络爬虫，提取所需的数据并进行处理。无论是对于数据挖掘、数据分析还是自动化测试等领域，Scrapy都是一个不可或缺的工具。