在scrapy框架运行时,调试爬虫是必不可少的一步,用于常规检查爬虫运行过程中item与接口返回值,主要操作如下:
新建 debug.py文件,写入内容如下:
from scrapy import cmdline
name = 'main' # scrapy的名称
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())
主要利用scrapy中的cmdline工具,跟踪爬虫运行的过程。但是有个容易被忽略的问题,即:
在python3中,该debug.py文件的位置必须与scrapy.cfg位置保持一致!
即在工程的根目录下才能模拟正常执行爬虫时的指令:scrapy crawl main