- 博客(3)
- 收藏
- 关注
原创 详解python使用browsermobproxy获取当前网页xhr的get数据方法
前言 很多时候使用爬虫时并不能或许到我们想要的信息,这是因为有些数据是用json代码书写,并通过xhr异步加载到网页。因此我们并不能在页面中获取,此时可通过解析json代码获取目标信息。一、如何找到目标xhr地址?以抖音中的canvas图片信息为例,从下图可以看出,图中有数字出现,但定位到canvas中却并没附带这些数据: 这个时候我们可以通过查找网络中的xhr请求,找到初始数据的链接,如下图操作,在出现的xhr请求中寻找到目标文件,如果xhr下没有所需数据,可以尝试刷新页面:经尝试后不难找
2022-03-02 15:20:41 5435
原创 python获取网页canvas图片并添加至excel中
canvas是目前主要流行的网页图片制作元素,以下图为例,图片元素中仅包含canvas的画布信息,无法得到其中具体的数据。此处介绍如何保存图片,想得到具体数据可查看主页另一篇文章。可以先将图片信息保存为base64格式数据信息,再解码为byte形式保存至计算机中。js = f'''return document.getElementsByTagName("canvas")[{0}].toDataURL("image/png");'''#数字表示第几个canvasbase64str = driver.e
2022-02-28 13:57:01 2815 3
原创 Python使用selenium爬取火狐浏览器下载框问题
近期有个任务需要使用selenium下载文件,使用火狐下载时总是会弹出下载框。网上资料大多使用FirefoxProfile(),但现在该方法已经被遗弃,经尝试后可使用以下方法免弹窗。#这里方法更改为FirefoxOptionsfp = webdriver.FirefoxOptions()fp.set_preference('browser.download.dir',path)#path是下载路径,可自定义fp.set_preference("browser.download.folderList
2022-02-01 19:31:32 808
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人