进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?
在文章:(最新版)如何正确移除Selenium中的 window.navigator.webdriver中,我们讲到了Page.addScriptToEvaluateOnNewDocument
这个方法,它可以让当前标签页打开的所有网页,在网页内容加载之前执行一段 JavaScript 代码,从而防止网站检测到window.navigator.webdriver
属性。
但有些网站,点击了它的页面超链接以后,会自动以新的标签页打开,这种情况下就无法使用上面提到的技巧了。
为了解决这个问题,我们必须设法让当前页面的所有a
标签涉及到的链接,都能在当前标签页打开。
要解决这个问题实际上非常简单,我们只需要知道一点点HTML
知识和 JavaScript 的知识即可。如果要用一个a
标签的链接在当前页面打开,我们只需要设置它的target
属性值为_self
。
现在我们需要用 JavaScript 把当面页面上的所有a
标签的target
属性值全部改成_self
。
以知乎为例,我们打开知乎的首页,如下图所示:
现在点击上面的任何一个问题,都会以新标签页打开,如下图所示:
现在我们回到原来的首页,打开开发者工具的Console
选项卡,如下图所示:
执行如下两行 JavaScript:
let a_list = document.getElementsByTagName('a')
[...a_list].map(a => {a.setAttribute('target', '_self')})
运行效果如下图所示:
现在,我们再次点击页面上的任意一个问题,就会发现,你可以直接在当前标签页打开了。
使用这个方法有4个地方需要注意:
-
不适用于通过 JavaScript 的 window.open()函数打开新网址的情况 -
对于 <form>
标签的表单提交,也可以设置target="_self"
属性。 -
必须等页面完全加载完成才能执行这两行 JavaScript 语句。如果执行语句以后,页面通过 Ajax 或者其他途径又加载了新的 HTML,那么需要重新执行。 -
每次打开新的链接以后,需要再次执行这两行语句。
这个方法可以与本文开始提到的那篇文章中的方法结合起来使用。首先通过Page.addScriptToEvaluateOnNewDocument
让当前标签页的window.navigator.webdriver
属性消失,等页面完全加载完成以后,再通过driver.execute_script()
运行本文讲到的两行 JavaScript 代码,强迫网页在当前标签页打开新的链接。
先别走呗,这里有可能有你需要的干货文章:
(2020最新版)如何正确移除 Pyppeteer 中的 window.navigator.webdriver;
必知必会:selenuim/pyppeteer模拟登陆防检测,能够屏蔽一小部分简单的检测;
Python selenium 自动化测试,一定要会用selenium的等待,三种等待方式解读;
【最全】JS获取浏览器属性信息;
爬虫:js逆向目前遇到的知识点集合;
CSS字体反爬实战,10分钟就能学会;
woff字体反爬实战,10分钟就能学会;
爬虫js解密分析:某某猫小说;