如何利用 Playwright 对已打开的浏览器进行爬虫

最新推荐文章于 2024-06-01 21:03:11 发布

测试界潇潇

最新推荐文章于 2024-06-01 21:03:11 发布

阅读量1k

点赞数 9

分类专栏：软件测试文章标签：爬虫 c++ 开发语言软件测试自动化测试功能测试职场和发展

本文链接：https://blog.csdn.net/nhb687096/article/details/138570295

版权

963 篇文章 8 订阅

订阅专栏

之前写过一篇关于如何利用 Selenium 操作已经打开的浏览器进行爬虫的文章

如何利用 Selenium 对已打开的浏览器进行爬虫！

最近发现很多人都开始摒弃 Selenium，全面拥抱 Playwright 了，那如何利用 Playwright 进行爬虫，以应对一些反爬严格的网站呢？

对 Playwright 不了解的小伙伴，可以看很早之前写过的一篇文章

具体操作步骤如下：

PS：这里以 Chrome 为例，其他浏览器类似

1-1 查看本地 Chrome 浏览器的的安装地址

比如：C:\Program Files\Google\Chrome\Application\chrome.exe

1-2 命令行启动浏览器

打开 CMD 终端，输入下面命令行打开 Chrome 浏览器

# 使用无痕模式，打开目标网站，最大化展示
cd C:\Program Files\Google\Chrome\Application\ && chrome.exe --remote-debugging-port=6666 --user-data-dir="C:\work\chrome" --start-maximized --incognito --new-window https://www.taobao.com

其中

指定浏览器调试端口号

PS：这里可以随机指定一个端口号，不要指定为已经被占用的端口号

指定浏览器的用户数据保存目录

注意：需要设置到一个全新的目录，不要影响 Chrome 浏览器系统用户的数据

1-3 编写代码操作浏览器

使用命令行打开 Chrome 浏览器后，就可以使用 Playwright 编写代码，继续对浏览器进行操作

注意：必须保证上面的操作只打开一个浏览器窗口，方便我们进行操作

2 实战一下

目标：使用 Playwright 操作上面命令行打开的浏览器页面，根据关键字进行搜索，获取商品标题及地址

需要注意的是，通过 connect_over_cdp 指定的端口号要和浏览器调试端口号保持一致

行动吧，在路上总比一直观望的要好，未来的你肯定会感谢现在拼搏的自己！如果想学习提升找不到资料，没人答疑解惑时，请及时加入扣群： 320231853，里面有各种软件测试+开发资料和技术可以一起交流学习哦。

最后感谢每一个认真阅读我文章的人，礼尚往来总是要有的，虽然不是什么很值钱的东西，如果你用得到的话可以直接拿走：

这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！

关注