python获取浏览器network_Selenium爬虫-获取浏览器Network请求和响应

最新推荐文章于 2023-12-21 09:06:39 发布

VIP文章 weixin_39603265

最新推荐文章于 2023-12-21 09:06:39 发布

阅读量4.4k

点赞数 3

文章标签： python获取浏览器network

目录[-]

1.问题

自从发现 Selenium 这块新大陆后，许多异步加载、js加密、动态Cookie等问题都变得非常简单，大大简化了爬虫的难度。

但是有些时候使用 Selenium 仍然有一些缺陷，比如现在很多网站数据都是通过json结构的接口来交互，通过分析报文的方式直接发包可以直接拿到json数据，数据不但全而且还很好解析，这比解析html网页容易多了。另一个非常重要的问题就是，很多时候一些接口返回的关键信息是不在html网页上显示的，通过 Selenium 拿到的 page_source 便没有这些字段。

那么如何解决这些问题呢？我们在做爬虫开发的时候经常用到浏览器的开发者工具，分析网页元素，查看资源加载(Network)等。Selenium + Webdriver 虽然能够定位DOM元素、操作页面、获取网页等。但是 Selenium 终归只能处理“结果”，它无法得知浏览器请求的数据接口信息。如果我们能像浏览器Network那样获取到所有接口的请求和返回信息，那么问题不都解决了么。

而本文介绍的解决方案是：使用 webdriver 通过proxy访问网络，再收集proxy端的请求和返回内容，从而获取到数据，而这个proxy就类似于 fiddler 抓包软件。而文本介绍使用的是 Browsermob-Proxy

2.Browsermob-Proxy

Browsermob-Proxy是一个开源的Java编写的基于LittleProxy的代理服务。Browsermob-Proxy的具体流程有点类似与Flidder或Charles。即开启一个端口并作为一个标准代理存在，当HTTP客户端(浏览器等)设置了这个代理，

最低0.47元/天解锁文章

weixin_39603265

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
python获取浏览器network_Selenium爬虫-获取浏览器Network请求和响应

目录[-]1.问题自从发现 Selenium 这块新大陆后，许多异步加载、js加密、动态Cookie等问题都变得非常简单，大大简化了爬虫的难度。但是有些时候使用 Selenium 仍然有一些缺陷，比如现在很多网站数据都是通过json结构的接口来交互，通过分析报文的方式直接发包可以直接拿到json数据，数据不但全而且还很好解析，这比解析html网页容易多了。另一个非常重要的问题就是，很多时候一些接口...
复制链接

扫一扫

python获取浏览器network_Selenium爬虫-获取浏览器Network请求和响应

“相关推荐”对你有帮助么？