很多人喜欢使用 Selenium 或者 Puppeteer (Pyppeteer) 通过模拟浏览器来编写爬虫,自以为这样可以不被网站检测到,想爬什么数据就爬什么数据。
但实际上,Selenium 启动的浏览器,有几十个特征可以被网站通过 JavaScript 探测到。Puppeteer 启动的浏览器,也有很多特征能够被网站探测。
如果你不相信,那么我们来做一个实验。首先你使用正常的浏览器打开如下网址:https://bot.sannysoft.com/
。可以看到,页面的内容如下:
这个页面很长,你得滚动鼠标往下看。大部分都是绿色的。
接下来,使用 Selenium 启动一个 Chrome 的有头模式,再打开这个页面看看效果:
一开始 WebDriver
这一项就标红了,说明网站成功检测到你使用模拟浏览器了。你再往下翻,标红的都是可以被检测出的特征。
左边是普通浏览器,右边是模拟浏览器
左边是普通浏览器,右边是模拟浏览器。如果你一项一项对比,就会发现很多地方都不一样。
这还是有头模式的效果。我们来看看无头模式:
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless")
driver = Chrome('./chromedriver', options=chrome_options)
driver.get('https://bot.sannysoft.com/')
driver.save_screenshot('screenshot.png')
截图打开以后是下面这样的。不要吓到:
万里河山一片红
这么多特征都直接暴露了,你还隐藏个屁。网站只要想发现你,非常容易。
既然 Selenium 不行,那 Puppeteer 或者 Pyppeteer 怎么样呢?我们使用 Pyppeteer 来做个实验。直接启动无头模式并截图。运行效果是下面这样的:
跟 Selenium 没什么区别。
所以,你还好意思继续用这两个东西来写爬虫?爬点没有安全意识的小网站可以。爬那些有强大安全团队和法务团队的公司,你就是在找死。
题外话
在此疾速成长的科技元年,编程就像是许多人通往无限可能世界的门票。而在编程语言的明星阵容中,Python就像是那位独领风 骚的超级巨星, 以其简洁易懂的语法和强大的功能,脱颖而出,成为全球最炙手可热的编程语言之一。
Python 的迅速崛起对整个行业来说都是极其有利的 ,但“人红是非多
”,导致它平添了许许多多的批评,不过依旧挡不住它火爆的发展势头。
在下个十年的剩余时间里,Python 还能如此重要以及保持完整性吗?今天,我们将对事实进行分析,破除一些误解。
①最适合初学者学习的编程语言
对于没有编程经验的初学者来说,Python 是一种很棒的入门编程语言。Python 简单易学上手快,对于任何人来说,即使是没有编程或编码经验的人,尤其是那些打算在数据科学、人工智能、机器学习等领域进一步发展的人来说,Python 都是较好的入门方式。
②人气和社区支持
Python 是世界上第二流行的语言,在撰写本文时,仅次于 JavaScript。这种人气似乎不会很快下降。Python 还有一个很棒的社区,提供了持续性更新和新版本。一般来说,Python 社区有很多老师,为了改进 Python,他们不断地进行更新。
③在人工智能 / 数据科学领域占主导地位
Python 的专长在于执行可视化任务、探索性数据分析,当然,在机器学习、深度学习、神经网络等方面的人工智能领域也是如此。可以通过 Python 模块和库访问的各种框架,有助于解决机器学习和深度学习复杂的问题。
Python被热门领域广泛应用
学习者就业优势明显!
说到Python的优势,就不得不提这句玩笑话:Python除了不会生孩子,其他的都会。
Web开发、网络爬虫、数据分析、人工智能、自动化、云计算、网络编程、游戏开发等领域,统统都应用了高效的Python!
而功能如此强大、高效的Python,却非常的简单好学,这让学它的同学爱不释手,也让越来越多的互联网企业开始用Python来做主要的开发语言,比如谷歌、Facebook(现Meta)、豆瓣、知乎等知名互联网公司都在使用Python进行开发。
这里给大家分享一份Python全套学习资料,包括学习路线、软件、源码、视频、面试题等等,都是我自己学习时整理的,希望可以对正在学习或者想要学习Python的朋友有帮助!
CSDN大礼包:全网最全《全套Python学习资料》免费分享🎁
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
1️⃣零基础入门
① 学习路线
对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
② 路线对应学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
③练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
因篇幅有限,仅展示部分资料
2️⃣国内外Python书籍、文档
① 文档和书籍资料
3️⃣Python工具包+项目源码合集
①Python工具包
学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
②Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
③Python小游戏源码
如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
4️⃣Python面试题
我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
5️⃣Python兼职渠道
而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
上述所有资料 ⚡️ ,朋友们如果有需要 📦《全套Python学习资料》的,可以扫描下方二维码免费领取 🆓
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓