适用场景:
有的时候,我们用scrapy
写了一个爬虫,而且是用到了selenium
和pyQt5
写出的爬虫,
在GUI
界面,我们需要用户输入爬虫的许可证序列号才可以使用我们写好的爬虫,一机一码的那种爬虫,当用户输入我们加密生成的许可证序列号之后才可以用到我们的爬虫系统,在这里面就会出现一些BUG
比如:序列号验证之后,如果序列号是无效的,我们应该如何关闭爬虫系统呢,注意----此时程序已经开始运行了,GUI
界面已经启动,而且程序在运行过程总,已经把序列号传到了验证系统,而且scrapy
也已经初始化好了一个浏览器,那我们已经该怎样关闭爬虫系统,关闭scrapy
生成的浏览器呢,但是GUI
不能关闭,用户可以继续修改序列号,继续启动爬虫,继续验证序列号,这种循环系统该怎么实现呢?
主动触发关闭scrapy爬虫:
其实非常简单,我们先来看一下官方文档:
CloseSpider
exceptionscrapy.exceptions.CloseSpider(reason='cancelled')
# 可以从蜘蛛回调中引发此异常以请求关闭/停止蜘蛛。支持的参数:
# 参数: reason (str) -- 关闭的原因
# 例如::
def parse_page(self, response):
if 'Bandwidth exceeded' in response.body:
raise CloseSpider('bandwidth_exceeded')
不错,我们要主动抛出一个异常,触发爬虫系统关闭,我在网上看到一些其他的方法,例如:
self.crawler.engine.close_spider(self, '商品链接输入错误,停止爬虫!')
可能有大佬在spider
文件里面用了这个命令,但是我查了百度,基本上看不到详细的描述,强行使用这个命令,可能会导致报错,大概是找不到crawler
这个属性,查了半天也不知道这个命令从哪儿引入的,怎么才能这样使用,所以我用了另一种办法
from scrapy.exceptions import CloseSpider
if True :
pass
else:
raise CloseSpider("商品链接输入错误,停止爬虫!")
在验证条件失败时,抛出异常,关闭爬虫系统,同事关闭selenium
启动的浏览器,继续使用GUI
就行
注意:当前的爬虫系统是用pyQt5
封装好界面的,在GUI
并不会看到报错信息,但是GUI
启动时会启动一个黑框,在黑框里面会有详细的日志信息,不过这不影响我们使用爬虫系统
具体的报错信息是
这个爬虫系统也借鉴了许多前辈们的经验,我自己能力也得到了提升,比如,如何在GUI
程序中启动不同的爬虫,或者传递不同的参数,或者pyQt5
程序和scrapy
之间的通信问题,又或者使用pyinstaller打包整个爬虫系统等等,收获还是蛮多的。
如果有开发GUI界面的scrapy的朋友遇到类似问题,可直接评论留言,有时间我会回复的。