Python Scrapy框架之CrawlSpider爬虫

最新推荐文章于 2023-06-28 10:42:36 发布

Python知识大全

最新推荐文章于 2023-06-28 10:42:36 发布

阅读量532

点赞数

分类专栏： python 文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/Baihu292/article/details/130467296

版权

python 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

CrawlSpider是Scrapy框架中的一个扩展，它增加了自动爬取满足特定规则URL的功能。LinkExtractor类负责自动提取页面中符合规则的链接，允许设置正则表达式、域名过滤等条件。Rule类定义了爬虫的跟进规则，包括链接提取器、回调函数和是否跟进。在实际应用中，通过配置这些组件，可以实现自动化和定制化的网页抓取流程。

摘要由CSDN通过智能技术生成

一般写爬虫是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是在之前的基础之上增加了新的功能，可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。

创建CrawlSpider爬虫：
之前创建爬虫的方式是通过scrapy genspider [爬虫名字] [域名]的方式创建的。如果想要创建CrawlSpider爬虫，那么应该通过以下命令创建：

scrapy genspider -c crawl [爬虫名字] [域名]

LinkExtractors链接提取器：
使用LinkExtractors可以不用程序员自己提取想要的url，然后发送请求。这些工作都可以交给LinkExtractors，他会在所有爬的页面中找到满足规则的url，实现自动的爬取。以下对LinkExtractors类做一个简单的介绍：

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要参数讲解：

allow：允许的url。所有满足这个正则表达式的url都会被提取。

deny：禁止的url。所有满足这个正则表达式的url都不会被提取。

allow_domains：允许的域名。只有在这个里面指定的域名的url才会被提取。

deny_domains：禁止的域名。所有在这个里面指定的域名的url都不会被提取。

restrict_xpaths：严格的xpath。和allow共同过滤链接。

Rule规则类：
定义爬虫的规则类。以下对这个类做一个简单的介绍：

class scrapy.spiders.Rule(
    link_extractor,
    callback = None,
    cb_kwargs = None,
    follow = None,
    process_links = None,
    process_request = None
)

主要参数讲解：
link_extractor：一个LinkExtractor对象，用于定义爬取规则。

callback：满足这个规则的url，应该要执行哪个回调函数。因为CrawlSpider使用了parse作为回调函数，因此不要覆盖parse作为回调函数自己的回调函数。

follow：指定根据该规则从response中提取的链接是否需要跟进。

process_links：从link_extractor中获取到链接后会传递给这个函数，用来过滤不需要爬取的链接。

spider页面案例（带注释为重点）：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
    name = 'chouti'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://dig.chouti.com/1']

# 连接提取器：从起始url对应的页面中提取符合规则的所有连接；allow=正则表达式
# 正则为空的话，提取页面中所有连接
link = LinkExtractor(allow=r'\d+')
rules = (
    # 规则解析器:将连接提取器提取到的连接对应的页面源码进行指定规则的解析
    # Rule自动发送对应链接的请求
    Rule(link, callback='parse_item', follow=True),
    # follow：True 将连接提取器 继续 作用到 连接提取器提取出来的连接 对应的页面源码中
)

def parse_item(self, response):
    item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    return item

Python知识大全

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python Scrapy框架之CrawlSpider爬虫

创建CrawlSpider爬虫：之前创建爬虫的方式是通过scrapy genspider [爬虫名字] [域名]的方式创建的。scrapy genspider - c crawl [ 爬虫名字 ] [ 域名 ]LinkExtractors链接提取器：使用LinkExtractors可以不用程序员自己提取想要的url，然后发送请求。这些工作都可以交给LinkExtractors，他会在所有爬的页面中找到满足规则的url，实现自动的爬取。主要参数讲解：allow：允许的url。
复制链接

扫一扫