Scrapy之Spider的用法

最新推荐文章于 2024-07-15 22:01:30 发布

Accelerating

最新推荐文章于 2024-07-15 22:01:30 发布

阅读量856

点赞数

分类专栏：爬虫文章标签： scrapy python 爬虫

原文链接：https://blog.csdn.net/wyx1275/article/details/105803861

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Scrapy之Spider的用法

Spider 运行流程
Spider 类解析
示例
参考：

Spider（爬虫）负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。具体一些就是Spider定义了一个特定站点（或一组站点）如何被抓取的类，包括如何执行抓取（即跟踪链接）以及如何从页面中提取结构化数据（即抓取项）。也就是说我们要抓取的网站的链接配置、抓取逻辑、解析逻辑等其实都是在 Spider 中定义的。

Spider 运行流程

在实现 Scrapy 爬虫项目时，最核心的类便是 Spider 类了，它定义了如何爬取某个网站的流程和解析方式。Spider 要做的事就是如下两件：

定义爬取网站的动作；
分析爬取下来的网页。

Spider 的整个爬取循环过程如下：

以初始的 URL 初始化 Request ，并设置回调函数。当该 Request 成功请求并返回时， Response生成并作为参数传给该回调函数。
在回调函数内分析返回的网页内容。返回结果有两种形式：一种是解析到的有效结果返回字典或 Item 对象，它们可以经过处理后（或直接）保存；另一种是解析得到下一个（如下一页）链接，可以利用此链接构造 Request 并设置新的回调函数，返回 Request 等待后续调度。
如果返回的是字典或 Item 对象，我们可通过 Feed Exports 等组件将返回结果存入到文件。如果设置了 Pipeline 的话，我们可以使用 Pipeline 处理（如过滤、修正等）并保存。
如果返回的是 Request ，那么 Request 执行成功得到 Response 之后， Response 会被传递给Request 中定义的回调函数，在回调函数中我们可以再次使用选择器来分析新得到的网页内容，并根据分析的数据生成 Item。

通过以上几步循环往复进行，就可以完成站点的爬取。

Spider 类解析

Spider 继承自 scrapy.spiders.Spider。scrapy.spiders.Spider 这个类是最简单最基本的 Spider 类，其他 Spider 必须继承这个类。
scrapy.spiders.Spider 类提供了start_requests()方法的默认实现，读取并请求 start_urls 属性，并根据返回的结果调用 parse() 方法解析结果。

它有如下一些基础属性：

name：爬虫名称，是定义 Spider 名字的字符串。 Spider 的名字定义了 Scrapy 如何定位并初始化 Spider ，它必须是唯一的。不过我们可以生成多个相同的 Spider 实例，数量没有限制。name 是 Spider 最重要的属性。 如果 Spider 爬取单个网站，一个常见的做法是以该网站的域名名称来命名 Spider。 例如， Spider 爬取 mywebsite.com ，该 Spider通常会被命名为 mywebsite。
allowed_domains：允许爬取的域名，是可选配置，不在此范围的链接不会被跟进爬取 。
start_urls：它是起始 URL 列表，当我们没有实现start_requests()方法时，默认会从这个列表开始抓取。
custom_settings：它是一个字典，是专属于本 Spider 的配置，此设置会覆盖项目全局的设置。此设置必须在初始化前被更新，必须定义成类变量。
crawler：它是由 from_crawler() 方法设置的，代表的是本 Spider 类对应的 Crawler 对象。Crawler 对象包含了很多项目组件，利用它我们可以获取项目的一些配置信息，如最常见的获取项目的设置信息，即 Settings。
settings：它是一个 Settings 对象，利用它我们可以直接获取项目的全局设置变量 。

除了基础属性，Spider 还有一些常用的方法。

start_requests()：此方法用于生成初始请求，它必须返回一个可迭代对象，该方法可以被重写。此方法会默认使用 start_urls 里面的 URL 来构造 Request，而且 Request 默认是 GET 请求方式。如果我们想在启动时以 POST方式访问某个站点，可以直接重写这个方法，发送 POST请求时使用 FormRequest 即可。
parse(response)：当 Response 没有指定回调函数时，该方法会默认被调用 。它负责处理 Response 处理返回结果，并从中提取出想要的数据和下一步的请求，然后返回。该方法需要返回一个包含 Request 或 ltem的可迭代对象。
closed(reason)：当 Spider 关闭时，该方法会被调用，在这里一般会定义释放资源的一些操作或其他收尾操作。

示例

重写start_requests()

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']

    def start_requests(self):
        yield scrapy.Request('http://www.example.com/1.html', self.parse)
        yield scrapy.Request('http://www.example.com/2.html', self.parse)
        yield scrapy.Request('http://www.example.com/3.html', self.parse)

    def parse(self, response):
        for h3 in response.xpath('//h3').getall():
            yield MyItem(title=h3)

        for href in response.xpath('//a/@href').getall():
            yield scrapy.Request(response.urljoin(href), self.parse)

参考：

[1] http://meta.math.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference
[2] https://mermaidjs.github.io/
[3] https://mermaidjs.github.io/
[4] http://adrai.github.io/flowchart.js/