记忆碎片之主动关闭scrapy+selenium+pyQt5爬虫系统

适用场景:

有的时候,我们用scrapy写了一个爬虫,而且是用到了seleniumpyQt5写出的爬虫,
GUI界面,我们需要用户输入爬虫的许可证序列号才可以使用我们写好的爬虫,一机一码的那种爬虫,当用户输入我们加密生成的许可证序列号之后才可以用到我们的爬虫系统,在这里面就会出现一些BUG比如:序列号验证之后,如果序列号是无效的,我们应该如何关闭爬虫系统呢,注意----此时程序已经开始运行了,GUI界面已经启动,而且程序在运行过程总,已经把序列号传到了验证系统,而且scrapy也已经初始化好了一个浏览器,那我们已经该怎样关闭爬虫系统,关闭scrapy生成的浏览器呢,但是GUI不能关闭,用户可以继续修改序列号,继续启动爬虫,继续验证序列号,这种循环系统该怎么实现呢?

主动触发关闭scrapy爬虫:

其实非常简单,我们先来看一下官方文档:

CloseSpider
exceptionscrapy.exceptions.CloseSpider(reason='cancelled')
# 可以从蜘蛛回调中引发此异常以请求关闭/停止蜘蛛。支持的参数:

# 参数:	reason (str) -- 关闭的原因
# 例如::

def parse_page(self, response):
    if 'Bandwidth exceeded' in response.body:
        raise CloseSpider('bandwidth_exceeded')

不错,我们要主动抛出一个异常,触发爬虫系统关闭,我在网上看到一些其他的方法,例如:

self.crawler.engine.close_spider(self, '商品链接输入错误,停止爬虫!')

可能有大佬在spider文件里面用了这个命令,但是我查了百度,基本上看不到详细的描述,强行使用这个命令,可能会导致报错,大概是找不到crawler这个属性,查了半天也不知道这个命令从哪儿引入的,怎么才能这样使用,所以我用了另一种办法

from scrapy.exceptions import CloseSpider
if True :
	pass
else:
	raise CloseSpider("商品链接输入错误,停止爬虫!")

在验证条件失败时,抛出异常,关闭爬虫系统,同事关闭selenium启动的浏览器,继续使用GUI就行
注意:当前的爬虫系统是用pyQt5封装好界面的,在GUI并不会看到报错信息,但是GUI启动时会启动一个黑框,在黑框里面会有详细的日志信息,不过这不影响我们使用爬虫系统
具体的报错信息是
在这里插入图片描述
这个爬虫系统也借鉴了许多前辈们的经验,我自己能力也得到了提升,比如,如何在GUI程序中启动不同的爬虫,或者传递不同的参数,或者pyQt5程序和scrapy之间的通信问题,又或者使用pyinstaller打包整个爬虫系统等等,收获还是蛮多的。
如果有开发GUI界面的scrapy的朋友遇到类似问题,可直接评论留言,有时间我会回复的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值