Scrapy 爬虫框架使用指南

阿贾克斯的黎明

已于 2024-10-26 00:01:24 修改

阅读量1.7k

点赞数 10

分类专栏： python 文章标签： python

于 2024-10-25 23:53:19 首次发布

本文链接：https://blog.csdn.net/m0_57836225/article/details/142083750

版权

python 专栏收录该内容

27 篇文章

订阅专栏

一、引言

在当今数据驱动的时代，从网页中提取有价值的信息变得至关重要。Scrapy 是一个强大的 Python 爬虫框架，它提供了一套完整的工具和流程，使得开发者能够高效地编写爬虫程序，从互联网上抓取数据。本文将详细介绍 Scrapy 的基本概念、使用方法以及一些实际应用中的技巧和注意事项，帮助你快速上手并充分利用这个优秀的框架。

二、Scrapy 概述

（一）什么是 Scrapy

Scrapy 是一个开源的、基于 Python 的爬虫框架，用于快速、高效地从网站上抓取数据并进行结构化处理。它具有高度的可扩展性和灵活性，能够处理各种复杂的爬虫任务，包括但不限于网页抓取、数据提取、自动化测试等。

（二）Scrapy 的特点

高效性：采用异步 I/O 和多线程技术，能够在短时间内处理大量的网页请求，提高爬虫的效率。
可扩展性：允许用户通过自定义中间件、扩展和插件来扩展其功能，满足不同项目的特定需求。
灵活性：支持多种数据格式的输出，如 JSON、CSV、XML 等，方便与其他工具和系统进行集成。
内置功能丰富：提供了自动重定向、cookies 处理、代理支持、缓存机制等常用功能，减少了开发过程中的重复工作。
遵循 Robots 协议：默认情况下，Scrapy 会尊重网站的 Robots 协议，避免对网站造成不必要的负担和违反法律法规。

三、安装 Scrapy

在开始使用 Scrapy 之前，需要确保你的 Python 环境已经安装。Scrapy 支持 Python 3.6 及以上版本。你可以通过以下命令使用 pip 安装 Scrapy：

pip install scrapy

安装完成后，可以在命令行中输入scrapy来检查是否安装成功。如果显示 Scrapy 的相关帮助信息，则说明安装成功。

四、创建 Scrapy 项目

（一）创建项目

打开命令行，进入你想要创建项目的目录，然后运行以下命令：

scrapy startproject [项目名称]

例如，要创建一个名为 “myspider” 的项目，可以执行：

scrapy startproject myspider

这将创建一个名为 “myspider” 的目录，目录结构如下：

myspider/
    scrapy.cfg
    myspider/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

（二）项目结构解析

scrapy.cfg：项目的配置文件，用于指定项目的部署设置和运行参数。
myspider/：项目的 Python 模块，包含项目的主要代码。
- init.py：Python 包的初始化文件，通常为空。
- items.py：定义要抓取的数据结构，类似于数据库中的表结构。
- middlewares.py：用于编写中间件代码，中间件可以在爬虫的请求和响应处理过程中进行自定义操作，如修改请求头、处理验证码等。
- pipelines.py：用于处理抓取到的数据，如进行数据清洗、存储到数据库等操作。
- settings.py：项目的配置文件，包含各种设置选项，如爬虫的并发请求数、延迟时间、代理设置等。
spiders/：存放爬虫代码的目录。
- init.py：同样是初始化文件。

五、编写爬虫

（一）定义 Item

在items.py文件中，定义要抓取的数据结构。例如，要抓取一个网页上的文章标题、作者和内容，可以定义如下 Item：

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

（二）创建爬虫类

在spiders目录下创建一个 Python 文件，例如example_spider.py，并在其中定义一个爬虫类，继承自scrapy.Spider。以下是一个简单的示例：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ["https://www.example.com"]

    def parse(self, response):
        # 使用XPath或CSS选择器提取数据
        title = response.xpath('//h1[@class="article-title"]/text()').get()
        author = response.css('.author::text').get()
        content = response.css('.article-content p::text').getall()

        # 将提取到的数据封装成Item对象
        item = ArticleItem()
        item['title'] = title
        item['author'] = author
        item['content'] = ' '.join(content)

        yield item

在这个示例中：

name属性是爬虫的名称，必须唯一。
start_urls是一个列表，包含了爬虫开始抓取的初始 URL。
parse方法是爬虫的主要处理逻辑，用于解析响应并提取数据。在这个方法中，我们使用了 Scrapy 提供的XPath和CSS选择器来定位网页中的元素，并提取数据。然后将数据封装成ArticleItem对象，通过yield关键字返回。

（三）选择器（XPath 和 CSS）

XPath：
- XPath 是一种用于在 XML 和 HTML 文档中选择节点的语言。它具有强大的表达能力，能够通过元素的属性、位置等信息来定位元素。例如，要选择一个具有特定id属性的元素，可以使用//*[@id="element_id"]。
- 在 Scrapy 中，可以使用response.xpath()方法来应用 XPath 表达式。例如，response.xpath('//a/@href').getall()可以获取页面上所有<a>标签的href属性值。
CSS 选择器：
- CSS 选择器是一种用于选择 HTML 元素的样式规则。它通常更简洁易懂，对于熟悉 CSS 的开发者来说很容易上手。例如，要选择一个类名为class_name的元素，可以使用.class_name。
- 在 Scrapy 中，可以使用response.css()方法来应用 CSS 选择器。例如，response.css('.article-title::text').get()可以获取类名为article-title的元素的文本内容。

（四）跟进链接

如果要让爬虫自动跟进页面中的链接并继续抓取，可以在parse方法中使用response.follow()方法。例如，要跟进页面上所有<a>标签的链接，可以这样写：

def parse(self, response):
    # 提取数据...

    # 跟进链接
    for link in response.css('a::attr(href)').getall():
        yield response.follow(link, callback=self.parse)

在这个示例中，response.follow()方法会创建一个新的请求，并将回调函数设置为parse，这样当新的页面响应回来时，会继续调用parse方法进行处理。

六、设置与配置

（一）常见设置选项

在settings.py文件中，可以对爬虫进行各种配置。以下是一些常见的设置选项：

并发请求数（CONCURRENT_REQUESTS）：
- 控制同时发送的请求数量。默认值通常较低，以避免对目标网站造成过大压力。可以根据目标网站的负载能力和自己的需求进行调整。例如，将并发请求数设置为 16：

    CONCURRENT_REQUESTS = 16

延迟时间（DOWNLOAD_DELAY）：
- 设置每个请求之间的延迟时间，以避免被目标网站识别为爬虫并被封禁。单位为秒。例如，设置延迟时间为 0.5 秒：

    DOWNLOAD_DELAY = 0.5

代理设置（PROXIES）：
- 如果需要使用代理来访问目标网站，可以在settings.py中设置代理列表。例如：

    PROXIES = [
        {'http': 'http://proxy.example.com:8080', 'https': 'https://proxy.example.com:8080'}
    ]

也可以使用第三方代理服务提供商的 API 来动态获取代理。例如，使用scrapy-proxies库，可以在settings.py中添加以下配置：

    DOWNLOADER_MIDDLEWARES = {
       'scrapy_proxies.RandomProxy': 100,
       'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
    }

    PROXY_LIST = 'proxy_list.txt'
    PROXY_MODE = 0

这里，PROXY_LIST是一个包含代理地址的文本文件，PROXY_MODE表示代理的使用方式（0 为随机选择代理）。
4. 用户代理（USER_AGENT）：

设置爬虫的用户代理，模拟浏览器访问。可以使用默认的用户代理，也可以自定义一个。例如：

    USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

为了避免被网站识别为爬虫，还可以使用一些随机用户代理库，如fake-useragent。在settings.py中添加以下配置：

    DOWNLOADER_MIDDLEWARES = {
       'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
       'myspider.middlewares.RandomUserAgentMiddleware': 400,
    }

然后在middlewares.py文件中编写RandomUserAgentMiddleware类来实现随机用户代理的功能：

    import random
    from fake_useragent import UserAgent

    class RandomUserAgentMiddleware:
        def __init__(self):
            self.ua = UserAgent()

        def process_request(self, request, spider):
            request.headers['User-Agent'] = self.ua.random

（二）启用中间件

如果在项目中编写了自定义的中间件，需要在settings.py文件中启用它们。例如，要启用上面提到的RandomUserAgentMiddleware，可以在DOWNLOADER_MIDDLEWARES设置中添加相应的配置：

DOWNLOADER_MIDDLEWARES = {
   'myspider.middlewares.RandomUserAgentMiddleware': 400,
}

这里的数字表示中间件的优先级，数值越小，优先级越高。

（三）数据管道配置

如果要对抓取到的数据进行处理和存储，可以在pipelines.py文件中编写相应的代码，并在settings.py中配置启用数据管道。例如，要将数据存储到 JSON 文件中，可以编写以下pipeline：

import json

class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('data.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + '\n'
        self.file.write(line)
        return item

然后在settings.py中启用这个数据管道：

ITEM_PIPELINES = {
   'myspider.pipelines.JsonWriterPipeline': 300,
}

七、运行爬虫

在项目的根目录下，打开命令行，运行以下命令来启动爬虫：

scrapy crawl [爬虫名称]

例如，要运行上面创建的example爬虫，可以执行：

scrapy crawl example

Scrapy 将会按照你编写的逻辑开始抓取数据，并根据配置将数据输出到指定的位置（如 JSON 文件）。

八、总结

Scrapy 是一个功能强大、灵活且高效的爬虫框架，通过本文的介绍，你应该对它的基本使用方法有了一个初步的了解。在实际应用中，你可以根据具体的需求进一步深入学习和探索 Scrapy 的高级功能，如分布式爬虫、增量抓取、动态页面抓取等。同时，也要注意遵守法律法规和网站的使用条款，合理合法地使用爬虫技术获取数据。希望你能利用 Scrapy 框架顺利地从互联网上抓取到有价值的信息，为你的数据分析和应用开发提供有力支持。