爬虫学习笔记(十)
Scrapy之CrawlSpiders
首先说Spider,它是所有爬虫的基类,而CrawSpiders就是Spider的派生类。
原理
start_urls --> 调度器 --> 下载器 -->rules--> 数据提取 --> 调度器
作用:
在rules到中提取到的数据获得新的url,直接返回给调度器进行继续爬取,并
创建方法:
scrapy genspider -t crawl xxx xxx.com
LinkExtractors
提取新的链接
默认:
rules = (
Rule(LinkExtractor(allow='xxx '), callback='parse_item', follow=True),
)
但是我们可以使用 restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接(只选到节点,不选到属性)
注意:
rules = (
Rule(LinkExtractor(restrict_xpaths=(r'')), callback='parse_item'),)
- callback后面函数名用引号引起
- 函数名不能是parse