scrapy框架学习之CrawlSpider样例_com.crawlink.slate-CSDN博客

本文链接：https://blog.csdn.net/qq_29983883/article/details/105845202

爬取规则(Crawling rules)

classscrapy.contrib.spiders.Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)

link_extractor 是一个 Link Extractor 对象。其定义了如何从爬取到的页面提取链接。
callback 是一个callable或string(该spider中同名的函数将会被调用)。从link_extractor中每获取到链接时将会调用该函数。该回调函数接受一个response作为其第一个参数，并返回一个包含 Item 以及(或) Request 对象(或者这两者的子类)的列表(list)。
cb_kwargs 包含传递给回调函数的参数(keyword argument)的字典。
follow 是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果 callback 为None， follow 默认设置为 True ，否则默认为 False 。
process_links 是一个callable或string(该spider中同名的函数将会被调用)。从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
process_request 是一个callable或string(该spider中同名的函数将会被调用)。该规则提取到每个request时都会调用该函数。该函数必须返回一个request或者None。 (用来过滤request)

当编写爬虫规则时，请避免使用 parse 作为回调函数。由于 CrawlSpider 使用 parse 方法来实现其逻辑，如果您覆盖了 parse 方法，crawl spider 将会运行失败。

ink Extractors

默认的链接提取器是LinkExtractor，它是相同的 LxmlLinkExtractor

classscrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None

allow（正则表达式（或的列表）） - 一个单一的正则表达式（或正则表达式列表），（绝对）urls必须匹配才能提取。如果没有给出（或为空），它将匹配所有链接。
deny（正则表达式或正则表达式列表） - 一个正则表达式（或正则表达式列表），（绝对）urls必须匹配才能排除（即不提取）。它优先于allow参数。如果没有给出（或为空），它不会排除任何链接。
allow_domains（str或list） - 单个值或包含将被考虑用于提取链接的域的字符串列表
deny_domains（str或list） - 单个值或包含不会被考虑用于提取链接的域的字符串列表
deny_extensions（list） - 包含在提取链接时应该忽略的扩展的单个值或字符串列表。如果没有给出，它将默认为IGNORED_EXTENSIONS在scrapy.linkextractors包中定义的列表。
restrict_xpaths（str或list） - 是一个XPath（或XPath的列表），它定义响应中应从中提取链接的区域。如果给出，只有那些XPath选择的文本将被扫描链接。参见下面的例子。
restrict_css（str或list） - 一个CSS选择器（或选择器列表），用于定义响应中应提取链接的区域。有相同的行为restrict_xpaths。
标签（str或list） - 标签或在提取链接时要考虑的标签列表。默认为。(‘a’, ‘area’)
attrs（list） - 在查找要提取的链接时应该考虑的属性或属性列表（仅适用于参数中指定的那些标签tags ）。默认为(‘href’,)
canonicalize（boolean） - 规范化每个提取的url（使用w3lib.url.canonicalize_url）。默认为True。
unique（boolean） - 是否应对提取的链接应用重复过滤。
process_value（callable） -接收从标签提取的每个值和扫描的属性并且可以修改值并返回新值的函数，或者返回None以完全忽略链接。如果没有给出，process_value默认为。lambda x: x

样例

下面是爬取微信小程序社区的爬虫代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class WeixinSpider(CrawlSpider):
    name = 'weixin'
    allowed_domains = ['developers.weixin.qq.com']
    start_urls = ['https://developers.weixin.qq.com/community/develop/list/2?page=2']

    rules = (
        Rule(LinkExtractor(allow=r'.+2?page=\d'),follow=True),
        Rule(LinkExtractor(allow=r'.+/develop/doc/.+?blockType=1'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):

        print("".join(response.xpath("//span[@class='post_title_content']/text()").extract()))
        item = {}
        return item