爬虫最新进展，动态网页爬取

最新推荐文章于 2024-04-20 09:36:26 发布

Code_LT

最新推荐文章于 2024-04-20 09:36:26 发布

阅读量919

点赞数

分类专栏： Web 文章标签： python 爬虫

本文链接：https://blog.csdn.net/Code_LT/article/details/120233510

版权

8 篇文章 23 订阅

订阅专栏

通常，爬取网站，最简单的就是静态网页，一般 python的request+beautifulsoup就可以搞定。

困难的是动态网页的爬取。

动态网页爬取一般有以下几种方法：

1. 逆向回溯（即一层层找接口，或底层链接，想稳定快速爬取，可考虑这个，相当费时费力）

2. 渲染动态网页法（使用PySide或ghost.py，但是由于太过久远已经被时代淘汰了，所以这种方法并不优雅）

3. 模拟浏览器法（如使用Selenium等，见下）

当今常用的三个常用的浏览器驱动：

库	Selenium	Puppeteer	Playwright
JavaScript 支持	官方支持	官方支持	官方支持
Python 异步支持	无	第三方，而且 bug 不少	官方支持
Python 同步支持	官方支持	无	官方支持
维护者	社区	Google	微软
可操作性浏览器	Chrome/Firefox/Safari/Edge	Chrome/Firefox	Chrome/Firefox/Safari/Edge
模拟操作丰富度	一般	极好	很好
Cookie 支持	一般	一般	API 非常友好
代理切换支持	一般	一般	极好

所以，Playwright是未来趋势，学会用Playwright即可

参考：

关注