scrapy框架的CrawlSpider类和LinkExtractor提取规则

最新推荐文章于 2024-07-08 11:34:45 发布

搬砖的乔布梭

最新推荐文章于 2024-07-08 11:34:45 发布

阅读量1.9k

点赞数

分类专栏： Python爬虫完全攻略

本文链接：https://blog.csdn.net/u010986776/article/details/79264495

版权

Python爬虫完全攻略专栏收录该内容

16 篇文章 12 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Scrapy的CrawlSpider类和LinkExtractor来实现超链接的深度爬取。在业务场景中，当爬虫主要任务是对子链接进行访问时，CrawlSpider可以自动遵循预设规则，将不同类型的子链接交给相应的回调函数处理。通过示例——改写《使用scrapy框架爬取股票数据》的爬虫，展示了CrawlSpider的用法，生成名为stock的爬虫并指定了爬取目标stock.10jqka.com.cn。

摘要由CSDN通过智能技术生成

@业务场景

当爬虫的主要工作集中在对超链接的深度爬取而非首页时适用
当定义好子链接爬取规则时，框架会自动对子链接进行访问，并将不同样式的子链接页面结果交由不同回调函数处理
本例对《使用scrapy框架爬取股票数据》进行改写

@创建CrawlSpider

scrapy genspider -t crawl stock stock.10jqka.com.cn
则框架会自动生成爬虫模板stock.py
stock.10jqka.com.cn为要爬取的首页

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

搬砖的乔布梭

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

Python爬虫 scrapy框架（四）CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule

qq_38232003的博客

12-17

1064

scrapy框架 CrawlSpider CrawlSpider：基于Spider的子类，继承父类的功能，且派生出自己的功能。全站数据爬取的方式基于Spider：手动请求发送基于CrawlSpider：基本使用创建一个工程 scrapy startproject quanzhanPro 切换到工程目录 cd quanzhanPro 创建一个基于CrawlSpider类的爬虫文件 scrapy genspider -t crawl quanzhan wz.sun0769.com/politi

scrapy中的链接提取

qq_56624191的博客

02-23

735

关于scrapy的一小部分（链接提取）以下过程在命令行中进行（win+R,输入cmd) 1.进入装有scrapy的磁盘中 2. scrapy shell 要爬取的网址 from scrapy.linkextractors import LinkExtractor link = LinkExtractor(allow=r'/book/1222_\d+\.html') link.extract_links(response) 3. link1=LinkExtractor(restrict_xpath

参与评论您还未登录，请先登录后发表或查看评论

scrapy之使用LinkExtractor提取链接

aiji2909的博客

12-13

321

一、概述：　　在页面含有少量链接时，使用selector来提取信息就可以，但如果链接特别多时，就需要用LinkExtractor来提取。二、LinkExtractor构造器的各个参数：　　1、allow 接收一个正则表达式或一个正则表达式列表，提取绝对url与正则表达式匹配的链接，如果改参数为空，就提取全部的链接。　　2、deny　　与allow刚好相反，排除绝对URL...

scrapy的crawlspider爬虫

最新发布

qq_74418371的博客

07-08

1975

对应的crawlspider就可以实现上述需求，能够匹配满足条件的url地址，组装成Reuqest对象后自动发送给引擎，同时能够指定callback函数即：crawlspider爬虫可以按照规则自动获取连接

Scrapy_LinkExtractor

苦涩

11-08

1562

文章目录使用LinkExtractor提取链接描述LinkExtractor提取规则LinkExtractor构造器参数描述使用LinkExtractor提取链接提取页面链接有Selector和LinkExtractor两种方法因为链接也是页面中的数据，所以可以使用与提取数据相同的方法进行提取，在提取少量（几个）链接或提取规则比较简单时，使用selector就足够了 Scrapy提供了一个专...

scrapy LinkExtractor 提取链接相关用法 crawl 模板

木下瞳的博客

05-04

1649

目录不使用 crawl 模板创建好 LinkExtractor 描述提取规则的参数参数默认值 allow deny allow_domains deny_domains restrict_xpath 与 restrict_css tags attrs process_value 使用 crawl 模板 rules=( #所以可以得到提取的正则...

爬虫-Scrapy（八）Scrapy快读提取超链接

XiaoDao147258369的博客

01-27

951

前面写过用xpath 方式定位response对象中我们所需要的超链接地址，但如果超链接过多且位置规律性差就不太方便了，现在介绍一种快速提取和过滤超链接地址的方法 1.明确需求查看豆瓣图书中首页中所有图书的超链接，先看首页长这样的然后随便点击一本数，进入图书的详情页，是这样的此时我们查看下浏览器的url地址，是https://book.douban.com/subject/35166573/?icn=index-latestbook-subject，这个就是我们要抓取的地址。 2. 创建爬虫可以

python爬虫-scrapy基于CrawlSpider类的全站数据爬取

m0_46500590的博客

02-19

674

文章目录一、CrawlSpider类介绍1.1 引入1.2 介绍和使用介绍使用二、案例：古诗文网全站数据爬取一、CrawlSpider类介绍 1.1 引入使用scrapy框架进行全站数据爬取可以基于Spider类，也可以使用接下来用到的CrawlSpider类。基于Spider类的全站数据爬取之前举过栗子，感兴趣的可以康康 scrapy基于Spider类的全站数据爬取 scrapy基于CrawlSpider类的全站数据爬取 1.2 介绍和使用介绍 CrawlSpider是Spider的一个子类，因

Scrapy框架之Crawlspider的使用

m0_63497523的博客

04-21

1228

Scrapy存在多种爬虫类，最常用的有两种：第一种是基于basic模版创建的普通爬虫类Scrapy.spider。另一种是基于crawl的规则性爬虫类scrapy.spider.crawlspider。一，crawlspider：经常用于数据在同一个页面上进行采集的情况下。二，spider：适用于多个页面的采集。 crawlspider原理图如下：创建crawlspider爬虫项目：crawlspider爬虫和普通爬虫创建项目大致相同，只是在创建爬虫时不同，普通爬虫使用Scrapy

Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

houyanhua1的专栏

01-19

3025

CrawlSpider 爬虫可以自动匹配提取url地址并发送请求，请求前会自动将url地址补全成以http开头的完整url。创建CrawlSpider爬虫的命令：先cd到项目目录中 ----> scrapy genspider –t crawl 爬虫名 baidu.com 项目名/spiders/爬虫名.py（CrawlSpider爬虫，自动匹配提取url地址并发送请求...

使用LinkExtract 提取链接及参数介绍

Z_Sam

02-19

1097

# 《精通 scrapy 网络爬虫》第6章第2节（即6.2）描述提取规则 # 使用LinkExtract 提取链接及参数介绍 from scrapy.http import HtmlResponse from scrapy.linkextractors import LinkExtractor html1 = open('scrapyLinkExtractorTest1.html','r',en...

Scrapy爬虫中的链接提取器LinkExtractor

adam_1992的博客

07-31

510

今天在编写Scrapy爬虫的时候接触到了LinkExtractor，遂学习了一下这个链接提取器。 Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response对象)中抽取最终将会被follow链接的对象｡使用场景就是在一个网站中通过自定义规则提取到自己想要的那些网址。 Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一...

Scrapy : Link Extractors

AI路漫漫

07-01

282

https://docs.scrapy.org/en/latest/topics/link-extractors.html#scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor

python scrapy之CrawlSpider和链接提取器LinkExtractor

weixin_43205308的博客

05-25

245

python scrapy之CrawlSpider和链接提取器LinkExtractor

Scrapy1.5基本概念（十）——链接提取器（Link Extractors）

ReganDu的博客

01-04

667

本文为译文，原文见地址：https://docs.scrapy.org/en/latest/topics/link-extractors.html 链接提取器（Link Extractors）链接提取器是只用于从web页面（scrapy.http.Response对象）中提取链接的对象，这些链接最终会被继续追踪。在Scrapy中有一个可用的scrapy.linkextractors.Lin...

Scrapy中提取规则的编写——xpath&css

qq_26601387的博客

12-06

344

xpath&css详解先启动一个网页 scrapy shell https://.......#启动一个网址 xpath用法 response.xpath('//title/text()').getall()#获取所有title节点中的文本 response.xpath('//title/text()').get()#获取第一个title节点中的文本 response.xpath('/...

scrapy爬虫之LinkExtractor的使用

fengzhilaoling的博客

07-13

2065

LinkExtractor LinkExtractor构造器所有的参数都有默认值，如果构造对象不传参，默认提取页面中所有的链接 2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser end In [1]: from scrapy.linkextractors import LinkExtractor In [2]:

Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

Macocoa的专栏

07-25

1855

rules = ( Rule(LinkExtractor(allow=r'?start=\d+&filter='), callback='parse_item', follow=True), ) ...其他代码省略运行爬虫 Rule(LinkExtractor(allow=r'?start=\d+&filter='), callback='parse_item',...

Scrapy框架详解：Spider与CrawlSpider的使用

"本文主要介绍Scrapy框架的学习，包括Spider的工作原理、数据处理流程以及中间件的使用。" Scrapy是一个强大的Python爬虫框架，它提供了高效的数据抓取和处理能力。在Scrapy中，Spider是核心组件，用于定义如何爬取...