Python爬虫 scrapy框架（四）CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule

最新推荐文章于 2024-07-08 11:34:45 发布

sharp_wu

最新推荐文章于 2024-07-08 11:34:45 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python xpath

本文链接：https://blog.csdn.net/qq_38232003/article/details/111302435

版权

本文介绍了Python Scrapy框架中的CrawlSpider，重点讲解了如何利用LinkExtractor进行链接提取，以及Rule进行规则解析器设置，实现全站数据爬取。通过案例展示了如何配置CrawlSpider，爬取阳关问政网站的问题反馈及内容。

摘要由CSDN通过智能技术生成

scrapy框架

CrawlSpider

CrawlSpider：基于Spider的子类，继承父类的功能，且派生出自己的功能。

全站数据爬取的方式

基于Spider：手动请求发送
基于CrawlSpider：

基本使用

创建一个工程

scrapy startproject quanzhanPro

切换到工程目录

cd quanzhanPro

创建一个基于CrawlSpider类的爬虫文件

scrapy genspider -t crawl quanzhan wz.sun0769.com/political/index/politicsNewest

生成的爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class QuanzhanSpider(CrawlSpider):
    name = 'quanzhan'
    allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.xxx.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = {
   }
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

链接提取器 LinkExtractor

根据指定规则（allow=‘正则’）提取符合规则的链接（会自动去重）
在这里插入图片描述

link = LinkExtractor(allow=r'id=1&page=/d+')

规则解析器 Rule

将链接提取器提取到的链接进行指定规则（callback）的解析操作
follow=True 全站数据爬取（进入到提取的页面继续提取匹配的链接）

Rule(LinkExtractor

最低0.47元/天解锁文章

sharp_wu

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
7
评论
Python爬虫 scrapy框架（四）CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule

scrapy框架CrawlSpiderCrawlSpider：基于Spider的子类，继承父类的功能，且派生出自己的功能。全站数据爬取的方式基于Spider：手动请求发送基于CrawlSpider：基本使用创建一个工程scrapy startproject quanzhanPro切换到工程目录cd quanzhanPro创建一个基于CrawlSpider类的爬虫文件scrapy genspider -t crawl quanzhan wz.sun0769.com/politi
复制链接

扫一扫

专栏目录