chromedriver僵尸进程的产生原因以及官方解决办法

做过爬虫的人应该会知道driver.quit()后有一定几率产生chromdriver的孤儿进程(或者说僵尸进程)。但是这些僵尸是死而不僵,占据着内存让人讨厌,然而如果你随意杀死这些僵尸有可能导致正在运行的爬虫出错。所以说它们是僵尸是冤枉它们,它们实际上是孤儿进程,不过习惯上还是称它们为僵尸。

这个问题存在了很多年,可以说天下苦僵尸久矣。通常清理僵尸的办法就是kill这些僵尸,但是时机不好掌握,它们在刚成为僵尸时还有活动,这时如果kill它们会导致session id失效,或者profile(user data dir)被破坏。我曾经尝试不用quit,直接杀死chromedriver以及子进程,结果的确没有产生僵尸,但是profile被破坏,缓存就没有了,这样得不偿失。如果在杀死它们前先driver.service.stop()来停止服务,情况要好一些,profile没有被破坏,但是有一定几率导致session id失效而出错。

除了清理僵尸,还有一起其他的方法防止僵尸的产生,比如说修改SIG_IGN信号,dumb-init等方法,看了下面的说明就知道这些方法过时了。官方说不生产僵尸了,僵尸就会自然消失,消灭僵尸的方法自然过时了。

僵尸进程产生的原因

这些僵尸的正式名称叫做zygote 受精卵进程,参考下面的官网,它的本意是加快程序运行的时间和节约内存,但是为什么有时会产生,有时又没有,以及这些zygote 什么时候终止,这个没有解释。个人的猜想是chrome中有很多异步的操作,这些异步没有结束前就执行quit,那么在主进程结束前就创建zygote 进程,处理这些异步的后续事宜,如果这个时候贸然杀死它们,就会出错。

https://chromium.googlesource.com/chromium/src/+/master/docs/linux/zygote.md

官方的解决办法

像下面这样在启动时加上--no-zygote参数,就这么简单。这大概是官方4年前推出的解决办法。

options.add_argument('--no-zygote')

从此你告别了僵尸,你不用再考虑如何杀死这些僵尸,以及什么时候杀死它们,说实话你没有很好的办法来确定这些僵尸不再活动,只能从僵尸产生的时间来判断,比如说僵尸产生后一小时后杀死,这些都非常麻烦。

然而如果你的程序不小心还是有可能产生僵尸,但这些僵尸不是quit产生的,是你退出程序前没有关闭浏览器(没有quit),导致chromedriver失去父亲,只好让进程1来领养。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值