python爬取vnd.openxmlformats-officedocument.spreadsheetml.sheet类型数据

文章讲述了在处理xlsx数据格式时,如果通过网络爬虫获取数据会遇到乱码问题。提供了两种解决方案:一是利用requests的stream=True参数下载文件到本地;二是将响应内容转换为BytesIO,通过pandas读取和处理。示例代码展示了如何用pandas从BytesIO对象中读取Excel数据。
摘要由CSDN通过智能技术生成

这种数据类型是xlsx的数据格式,爬取此种类型的数据的时候,我们直接f12看到的返回数据是乱码的,如图,

要想获得这种数据,有两种方式,一是保存文件到xlsx文件里面,二是通过BytesIO可以直接得到

第一种:爬取的时候,requests里面添加参数stream=True,获得流式数据。得到的数据可以直接写入xlsx文件,打开文件可以看见

第二种:获取的数据通过BytesIO转换一下,再通过pandas打印或者保存起来,直接使用,例子如下:

import requests
import io
import pandas
json_data = ""
response = requests.post("url", json=json_data, stream=True)
res = pandas.read_excel(io.BytesIO(response.content))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值