Scrapy存在多种爬虫类,最常用的有两种:第一种是基于basic模版创建的普通爬虫类Scrapy.spider。另一种是基于crawl的规则性爬虫类scrapy.spider.crawlspider。
一,crawlspider:经常用于数据在同一个页面上进行采集的情况下。
二,spider:适用于多个页面的采集。
crawlspider原理图如下:
创建crawlspider爬虫项目:crawlspider爬虫和普通爬虫创建项目大致相同,只是在创建爬虫时不同,普通爬虫使用Scrapy genspider 爬虫名 域名,crawlspider爬虫使用Scrapy genspider -t crawl 爬虫名 域名
创建项目如下:
crawlspider爬虫的注意点: