scrapy爬虫的运行通常是通过scrapy crawl spidername 一个个运行的,如有多个spider文件需要批量运行,常见的有两种方法:
1、使用CrawlProcess实现
2、使用修改crawl源码+自定义命令的方式实现
本文主要讲一下方法2的实现。
思路:1、根据scrapy中crawl命令的源码,进行相应的修改,并写一个自己的python文件,相当于定义了一个新命令。
2、还需要使用scrapy添加自定义命令的功能为我们所写的代码添加一个自定义命令,然后就可以根据这个自定义命令,运行多个爬虫文件了。
1、首先创建一个scrapy项目,并在该项目中创建多个爬虫文件。
创建scrapy项目mymultispider
scrapy startproject mymultispider
创建三个spider文件myspd1, myspd2, myspd3
scrapy gensipder -t basic myspd1 sina.com.cn
scrapy gensipder -t basic myspd2 si