【Selenium补丁】进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?

进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?

摄影:产品经理
产品经理背着我吃日料

在文章:(最新版)如何正确移除Selenium中的 window.navigator.webdriver中,我们讲到了Page.addScriptToEvaluateOnNewDocument这个方法,它可以让当前标签页打开的所有网页,在网页内容加载之前执行一段 JavaScript 代码,从而防止网站检测到window.navigator.webdriver属性。

但有些网站,点击了它的页面超链接以后,会自动以新的标签页打开,这种情况下就无法使用上面提到的技巧了。

为了解决这个问题,我们必须设法让当前页面的所有a标签涉及到的链接,都能在当前标签页打开。

要解决这个问题实际上非常简单,我们只需要知道一点点HTML知识和 JavaScript 的知识即可。如果要用一个a标签的链接在当前页面打开,我们只需要设置它的target属性值为_self

现在我们需要用 JavaScript 把当面页面上的所有a标签的target属性值全部改成_self

以知乎为例,我们打开知乎的首页,如下图所示:

现在点击上面的任何一个问题,都会以新标签页打开,如下图所示:

现在我们回到原来的首页,打开开发者工具的Console选项卡,如下图所示:

执行如下两行 JavaScript:

let a_list = document.getElementsByTagName('a')
[...a_list].map(a => {a.setAttribute('target', '_self')})

运行效果如下图所示:

现在,我们再次点击页面上的任意一个问题,就会发现,你可以直接在当前标签页打开了。

使用这个方法有4个地方需要注意:

  1. 不适用于通过 JavaScript 的 window.open()函数打开新网址的情况
  2. 对于 <form>标签的表单提交,也可以设置 target="_self"属性。
  3. 必须等页面完全加载完成才能执行这两行 JavaScript 语句。如果执行语句以后,页面通过 Ajax 或者其他途径又加载了新的 HTML,那么需要重新执行。
  4. 每次打开新的链接以后,需要再次执行这两行语句。

这个方法可以与本文开始提到的那篇文章中的方法结合起来使用。首先通过Page.addScriptToEvaluateOnNewDocument让当前标签页的window.navigator.webdriver属性消失,等页面完全加载完成以后,再通过driver.execute_script()运行本文讲到的两行 JavaScript 代码,强迫网页在当前标签页打开新的链接。


先别走呗,这里有可能有你需要的干货文章

(2020最新版)如何正确移除 Pyppeteer 中的 window.navigator.webdriver;
必知必会:selenuim/pyppeteer模拟登陆防检测,能够屏蔽一小部分简单的检测;
Python selenium 自动化测试,一定要会用selenium的等待,三种等待方式解读;
【最全】JS获取浏览器属性信息;
爬虫:js逆向目前遇到的知识点集合;
CSS字体反爬实战,10分钟就能学会;
woff字体反爬实战,10分钟就能学会;
爬虫js解密分析:某某猫小说;

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值