需要记住爬虫状态,新建job_info
scrapy crawl wenzhang -s JOBDIR=job_info/001
爬虫结束的信号是ctrl+c(win+linux都有效)的命令,不能kill掉进程,因为这样无法发送ctrl+c的信号,
按两次ctrl+c意味着强制退出,也无法发送信号
crtl+c后,不会立即停止,会进行一些善后工作,比如一些已经发出去的request,需要等它返回
其中seen保存已经访问过的url
state是spider的状态信息
p0是我们继续要发送的request
重启scrapy crawl manhua -s JOBDIR=job_info/001(p0会发生变化,会产生新的reqeutst)
要想重新爬取,可在指定002
必须要注意的是,这个目录不允许被不同的 spider 共享