python爬取vnd.openxmlformats-officedocument.spreadsheetml.sheet类型数据

最新推荐文章于 2024-06-26 16:10:09 发布

王墨语

最新推荐文章于 2024-06-26 16:10:09 发布

阅读量667

点赞数

分类专栏： python 文章标签： python pandas Powered by 金山文档

本文链接：https://blog.csdn.net/qq_29306999/article/details/129296994

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章讲述了在处理xlsx数据格式时，如果通过网络爬虫获取数据会遇到乱码问题。提供了两种解决方案：一是利用requests的stream=True参数下载文件到本地；二是将响应内容转换为BytesIO，通过pandas读取和处理。示例代码展示了如何用pandas从BytesIO对象中读取Excel数据。

摘要由CSDN通过智能技术生成

这种数据类型是xlsx的数据格式，爬取此种类型的数据的时候，我们直接f12看到的返回数据是乱码的，如图，

要想获得这种数据，有两种方式，一是保存文件到xlsx文件里面，二是通过BytesIO可以直接得到

第一种：爬取的时候，requests里面添加参数stream=True，获得流式数据。得到的数据可以直接写入xlsx文件，打开文件可以看见

第二种：获取的数据通过BytesIO转换一下，再通过pandas打印或者保存起来，直接使用，例子如下：

import requests
import io
import pandas
json_data = ""
response = requests.post("url", json=json_data, stream=True)
res = pandas.read_excel(io.BytesIO(response.content))