南晟-CSDN博客

原创详解python使用browsermobproxy获取当前网页xhr的get数据方法

前言很多时候使用爬虫时并不能或许到我们想要的信息，这是因为有些数据是用json代码书写，并通过xhr异步加载到网页。因此我们并不能在页面中获取，此时可通过解析json代码获取目标信息。一、如何找到目标xhr地址？以抖音中的canvas图片信息为例，从下图可以看出，图中有数字出现，但定位到canvas中却并没附带这些数据：这个时候我们可以通过查找网络中的xhr请求，找到初始数据的链接，如下图操作，在出现的xhr请求中寻找到目标文件，如果xhr下没有所需数据，可以尝试刷新页面：经尝试后不难找

2022-03-02 15:20:41 5998 1

原创 python获取网页canvas图片并添加至excel中

canvas是目前主要流行的网页图片制作元素，以下图为例，图片元素中仅包含canvas的画布信息，无法得到其中具体的数据。此处介绍如何保存图片，想得到具体数据可查看主页另一篇文章。可以先将图片信息保存为base64格式数据信息，再解码为byte形式保存至计算机中。js = f'''return document.getElementsByTagName("canvas")[{0}].toDataURL("image/png");'''#数字表示第几个canvasbase64str = driver.e

2022-02-28 13:57:01 3154 3

原创 Python使用selenium爬取火狐浏览器下载框问题

近期有个任务需要使用selenium下载文件，使用火狐下载时总是会弹出下载框。网上资料大多使用FirefoxProfile()，但现在该方法已经被遗弃，经尝试后可使用以下方法免弹窗。#这里方法更改为FirefoxOptionsfp = webdriver.FirefoxOptions()fp.set_preference('browser.download.dir',path)#path是下载路径，可自定义fp.set_preference("browser.download.folderList

2022-02-01 19:31:32 952

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 详解python使用browsermobproxy获取当前网页xhr的get数据方法

原创 python获取网页canvas图片并添加至excel中

原创 Python使用selenium爬取火狐浏览器下载框问题

空空如也

空空如也

原创详解python使用browsermobproxy获取当前网页xhr的get数据方法