清理爬虫程序的孤儿进程chromedriver和chrome

本文讨论了在使用selenium的webdriver进行爬虫时,ChromeDriver和Chrome可能产生的孤儿进程问题。孤儿进程会影响爬虫的运行效率,并提出通过查找并杀死由init接管的进程来解决这个问题。在Linux平台上,这种方法尤为有效。此外,作者还分享了从.NET迁移到.NET Core在Linux上运行大规模爬虫的经验,认为.NET 5具有良好的前景。
摘要由CSDN通过智能技术生成

为了更好的js支持,爬虫很多使用的是无头浏览器。我们通常通过selenium的webdirver来控制无头浏览器。

比如说chrome浏览器就使用chromedriver。但是这个chromedriver是个服务器,有缺陷,大规模爬虫常常导致无法无法连接,导致我们不得不抛弃chromedriver进程,最后chromedriver就变成了孤儿进程。

这些孤儿太多会影响爬虫,所以必须及时清除

什么是孤儿进程,我们来看看wiki的解释

类UNIX操作系统中,为避免孤儿进程退出时无法释放所占用的资源而僵死,任何孤儿进程产生时都会立即为系统进程initsystemd自动接收为子进程,这一过程也被称为“收养”(英語:re-parenting)[1]。在此需注意,虽然事实上该进程已有init作为其父进程,但由于创建该进程的进程已不存在,所以仍应称之为“孤儿进程”。

init的进程号是1,chromedriver就是init的子进程,所以根据这

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
根据引用\[1\]和引用\[2\]的内容,你可以将chromedriver.exe放到chrome的安装目录,并将该路径添加到环境变量中。此外,你可以通过以下步骤获取本地谷歌浏览器的版本: 1. 打开谷歌浏览器。 2. 在地址栏中输入"chrome://version/"并按下回车键。 3. 在打开的页面中,你可以找到浏览器的版本号。例如,当前浏览器版本是94.0.4606.71。 另外,根据引用\[2\]和引用\[3\]的内容,你可以在google的chromedriver官方下载站找到与你的浏览器版本匹配的chromedriver。你可以在该站点的chromedriver列表中找到与你的浏览器版本相对应的chromedriver版本。请注意,Windows系统的32位和64位都可以使用32位的chromedriver,它们是兼容的。 #### 引用[.reference_title] - *1* [chromeChromedriver版本不一致的问题,然后就要下载对应版本的chromedriver。](https://blog.csdn.net/sinat_37574187/article/details/130818710)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [关于selenium, 你还在因为chromedriver的版本与Chrome的版本不一致,需要手动更新chromedriver而烦恼吗?](https://blog.csdn.net/qq_34414530/article/details/120917611)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [chromedriverchrome各版本及下载地址](https://blog.csdn.net/cz9025/article/details/70160273)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值