【爬虫】CrawlSpider

最新推荐文章于 2020-12-17 15:59:49 发布

yepoyou

最新推荐文章于 2020-12-17 15:59:49 发布

阅读量146

点赞数 1

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/qq_36182852/article/details/108117278

版权

爬虫专栏收录该内容

12 篇文章 0 订阅

订阅专栏

CrawlSpider

概念
- 全站数据爬取的方式
CrawlSpider的使用
- 链接提取器
- 规则解析器

概念

Spider的子类
实现了全站数据爬取，即所有页码

全站数据爬取的方式

基于Spider：通用url模板，手动发送请求
基于CrawlSpider

CrawlSpider的使用

创建一个工程
cd XXX
创建爬虫文件（以CrawlSpider为父类）scrapy genspider -t crawl XXX www.xxxx.com

链接提取器

根据指定规则（allow=正则表达式）进行指定链接的提取

规则解析器

将链接提取器提取到的链接进行指定规则（callback）的解析

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest']

    # 链接提取器.根据指定规则（allow=正则表达式）进行指定链接的提取
    link = LinkExtractor(allow=r'id=1&page=\d+')
    rules = (
        # 规则解析器.将链接提取器提取到的链接进行指定规则（callback）的解析
        Rule(link, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response)

打印输出，验证获取到response
在这里插入图片描述

yepoyou

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】CrawlSpider

CrawlSpider概念全站数据爬取的方式CrawlSpider的使用链接提取器规则解析器概念Spider的子类实现了全站数据爬取，即所有页码全站数据爬取的方式基于Spider：通用url模板，手动发送请求基于CrawlSpiderCrawlSpider的使用创建一个工程cd XXX创建爬虫文件（以CrawlSpider为父类）scrapy genspider -t crawl XXX www.xxxx.com链接提取器根据指定规则（allow=正则表达式）进行指定链接的提取
复制链接

扫一扫

专栏目录