详解python使用browsermobproxy获取当前网页xhr的get数据方法

最新推荐文章于 2025-05-16 13:41:00 发布

南晟

最新推荐文章于 2025-05-16 13:41:00 发布

阅读量5.8k

点赞数 2

文章标签： python http json 爬虫 browser对象

本文链接：https://blog.csdn.net/qq_54085445/article/details/123189586

版权

本文详述了如何在Python中利用browsermobproxy抓取xhr请求中的数据，特别是针对get方法的请求。首先，介绍了寻找xhr地址的方法，以抖音为例，展示了在xhr请求中发现目标数据的过程。接着，提供了代码实现步骤，包括安装依赖、配置代理和浏览器，以及解析获取到的JSON数据。最后，文章强调了browsermobproxy使用的一些注意事项和可能的优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

很多时候使用爬虫时并不能或许到我们想要的信息，这是因为有些数据是用json代码书写，并通过xhr异步加载到网页。
因此我们并不能在页面中获取，此时可通过解析json代码获取目标信息。

一、如何找到目标xhr地址？

以抖音中的canvas图片信息为例，从下图可以看出，图中有数字出现，但定位到canvas中却并没附带这些数据：
在这里插入图片描述这个时候我们可以通过查找网络中的xhr请求，找到初始数据的链接，如下图操作，在出现的xhr请求中寻找到目标文件，如果xhr下没有所需数据，可以尝试刷新页面：

经尝试后不难找到初始数据存放位置，可以看出请求方法为get，从图中很容以看到我们所需要的性别数据：

在这里插入图片描述

在这里插入图片描述
接下来就是用代码实现这一步骤。

二、代码实现

1.准备条件

安装Browsermob-Proxy和chromedriver.exe：

下载Browsermobproxy

下载chromedriver驱动
将下载好后的brosermob-proxy-2.1.4和浏览器对应版本的chromedriver保存至main.py的同级目录下：
在这里插入图片描述

2.编写代码

引入库：

import json#读取json数据时需要用到
import os
import requests
from selenium import webdriver
from browsermobproxy import Server

配置代理环境和chrome浏览器：

path=os.getcwd()#获取当前路径
server = Server(path+"\\browsermob-proxy-2.1.4\\bin\\browsermob-proxy")
server.start()
proxy = server.create_proxy()
chrome_options =webdriver.ChromeOptions(

最低0.47元/天解锁文章