介绍
本文介绍了可使用 Pandas 的 read_csv() 读取的压缩文件。 read_csv() 这个名称可能会让您认为它只能读取扩展名为“.csv”的文件,但它也可以读取包含 csv 的压缩文件。
关于可读取的压缩文件
扩展名为“.gz”、“.bz2”、“.zip”、“.xz”、“.zst”、“.tar”、“.tar.gz”、“.tar.xz”、“.tar”可以加载“.bz2”压缩文件。 (参见 Pandas API 参考)
如何编写 read_csv()
格式与“.csv”相同,只是更改扩展名。
import pandas as pd
#更改扩展名
df = pd.read_csv("压缩文件名.zip")
*压缩文件名.zip包含1个csv文件。
很重要的一点
压缩文件中只能包含一个文件。 如果输入多个文件,则会出现“ZIP 文件中找到多个文件。每个 ZIP 仅一个文件”之类的错误。
最后
这次描述了可以使用 read_csv() 读取的压缩文件。 使用这种方法是因为在工作中使用的数据最近开始以 BZ 格式而不是 csv 格式分发。 当用于分析的文件被压缩发送时,或者当使用 CSV 格式会占用空间时,它似乎很有用。
Pandas csv相关:Pandas read_csv()小数点的原因及对策