python selenium获取body_selenium 获取请求返回内容的解决方案

最新推荐文章于 2024-06-19 12:54:04 发布

weixin_39792393

最新推荐文章于 2024-06-19 12:54:04 发布

阅读量2.9k

点赞数 1

文章标签： python selenium获取body

本文详细介绍了在遇到selenium无法直接获取HTTP响应体的问题时，如何通过ChromeDriver和Chrome DevTools Protocol来获取网络请求的响应内容。作者在探索过程中，尝试了多种方法，最终通过调用`goog/cdp/execute`接口成功获取了所需数据，实现了在自动化监控场景下获取完整的网络请求信息。

摘要由CSDN通过智能技术生成

提出问题

之前我的一篇博客说的是怎么利用 selenium 来做自动化监控。当出现异常时，我们需要记录页面源码、网络请求数据、截图等信息来方便我们诊断问题，基本上就够用了。但是，这两天遇到一个棘手的异常，时不时页面会弹出：“系统繁忙，请稍候再试！”，这时候我们去看网络请求数据，结果状态码全部都是 200，没有其它信息，这压根没法定位不了问题。

这就说明：网络出现异常的时候，仅靠状态码是不够的。我们最好能拿到 http 所有数据，包括：请求头、响应头、请求体、响应体。其中请求头、响应头，可以通过 PERFORMANCE_LOG 拿到，问题都不大。但是请求体与响应体，我们可以拿到么？

分析过程

这个问题困扰了我整整一天的时间，终于解决了。为什么这么困难？

我们先来看 selenium，它为什么不直接支持这个功能呢？因为开发人员觉得这不是他们目标：

we will not be adding this feature to the WebDriver API as it

falls outside of our current scope (emulating user actions).

然后我继续翻网络，发现谷歌的 devtools-protocol 明确是支持的：

那我有没有什么办法能调用这两个方法呢？这就很麻烦了，我根据这篇文章的思路去直连谷歌的 Remote Port。

看这篇文章真的很美，但实际上到我这个项目并不可行，为什么？

原因在于这篇文章所用的 PyChromeDevTools 是基于 WebSocket 的，而且是在请求一个链接后，立即去读取 Chrome 吐出来的响应数据。

而在监控这种场景下，是在请求已经完成之后才会收集 PerformanceLog，然后根据其中的请求 ID 去问 Chrome 要数据。一个是推，一个是拉，这是两种模式。所以非常不幸，解决不了我的问题。

但是给我了我一个思路，我去找找有没有类似 Java 的组件。这时候，我从 GitHub 上找到了 cdp4j，这是一个跟 Chrome 打交道的包，它有一个很迷人的 API：

// 获取请求返回内容

session.getCommand().getNetwork().getResponseBody("requestIdxxxxx");

这个方法我试验了很久，结果仍然不行，调用时一直返回的是：

No resource with given identifier found

我确认了很久，确认 requestId 是没有问题的，为什么拿不到数据？我试了很久，最后放弃了，因为我发现是这样的：

Java 的 Selenium 通过 chromedriver 开启了一个与 Chrome 的 session，cdp4j 是没有办法直接绑到这个 session 上面的(理论上是可能的，但是 cdp4j 的扩展性太差，我实在懒得去改)。这就意味着 chromdriver 的请求数据无法通过 cdp4j 来获取到。

既然 Java 的 Selenium 其实没并有直连 Chrome，而是通过 chromedriver 去跟 Chrome 打交道的。我们能不能从 chromedriver 上看看有没有直接获取 responseBody 的接口呢？

所以，我开始找 chromedriver 的文档，文档真的非常少。不知道从哪里我了解到 chromedriver 是根据 w3c 的协议开发的，我看看 w3c 的 webdriver 协议里能不能找到答案。</

最低0.47元/天解锁文章

weixin_39792393

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python selenium获取body_selenium 获取请求返回内容的解决方案

提出问题之前我的一篇博客说的是怎么利用 selenium 来做自动化监控。当出现异常时，我们需要记录页面源码、网络请求数据、截图等信息来方便我们诊断问题，基本上就够用了。但是，这两天遇到一个棘手的异常，时不时页面会弹出：“系统繁忙，请稍候再试！”，这时候我们去看网络请求数据，结果状态码全部都是 200，没有其它信息，这压根没法定位不了问题。这就说明：网络出现异常的时候，仅靠状态码是不够的。我们最好...
复制链接

扫一扫