Scrapy框架之Crawlspider的使用

本文介绍了Scrapy中的CrawlSpider爬虫类,它适用于在同一页面采集数据的情况,与基本的Spider爬虫类不同,CrawlSpider默认继承CrawlSpider类,并通过rules设置规则提取器。创建CrawlSpider时,需使用`Scrapy genspider -t crawl 爬虫名 域名`命令。CrawlSpider的parse_item函数负责数据提取,且不支持单独定义parse函数。LinkExtractor是CrawlSpider的重要组件,允许和拒绝规则、域名限制以及XPath表达式都可用于定制链接提取行为。
摘要由CSDN通过智能技术生成

Scrapy存在多种爬虫类,最常用的有两种:第一种是基于basic模版创建的普通爬虫类Scrapy.spider。另一种是基于crawl的规则性爬虫类scrapy.spider.crawlspider。

一,crawlspider:经常用于数据在同一个页面上进行采集的情况下。

二,spider:适用于多个页面的采集。

crawlspider原理图如下:

创建crawlspider爬虫项目:crawlspider爬虫和普通爬虫创建项目大致相同,只是在创建爬虫时不同,普通爬虫使用Scrapy   genspider   爬虫名   域名,crawlspider爬虫使用Scrapy  genspider   -t crawl   爬虫名   域名

创建项目如下:

crawlspider爬虫的注意点: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不要说了

大哥 阔气 给大哥点点关注

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值