【Pandas】pandas.DataFrame.to_parquet详解与实战应用：将DataFrame写入Parquet格式

最新推荐文章于 2025-03-07 07:30:00 发布

I'mAlex

最新推荐文章于 2025-03-07 07:30:00 发布

阅读量1.7k

点赞数 13

文章标签： pandas

本文链接：https://blog.csdn.net/g310773517/article/details/140877857

版权

pandas 专栏收录该内容

85 篇文章

订阅专栏

Parquet 是一种开放的、列式存储格式，尤其适用于大数据处理框架，如 Apache Hadoop、Apache Spark 和 Apache Drill 等。Pandas 提供了 to_parquet 方法，该方法使得将 Pandas DataFrame 写入 Parquet 文件成为可能。这篇博客将详细讲解 to_parquet 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。

🧑 博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者，提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Java/Python/Linux/AI等方面的服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：gylzbk）

💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份，助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本，送真活跃粉丝，助你提升文章热度。有兴趣的加文末联系方式，备注自己的CSDN昵称，拉你进群，互相学习共同进步。

在这里插入图片描述

【Pandas】pandas.DataFrame.to_parquet详解与实战应用：将DataFrame写入Parquet格式

1.简介 📘
2.什么是 `to_parquet` 📋
3.为什么使用 `to_parquet` 🤔
4. `to_parquet` 方法详解 🔍
- 4.1 方法签名 🖊️
- 4.2 参数解释 📝
- 4.3 返回值 📤
- 4.4 示例代码 👨‍💻
- - 4.4.1 将 DataFrame 写入 Parquet 文件 📄
  - 4.4.2 使用压缩选项写入 Parquet 文件 ⏩
- 4.5 进阶使用 🚀
- - 4.5.1 分区存储 🌐
  - 4.5.2 写入远程 Parquet 文件 🗂️
  - 4.5.3 包含索引写入 Parquet 文件 📜
- 5.注意事项 ⚠️
6.参考资料 📚
7.结论 🏁

1.简介 📘

2.什么是 `to_parquet` 📋

to_parquet 是 Pandas 提供的方法，用于将 DataFrame 写入 Parquet 文件。这种格式提供了高速的读写性能和强大的压缩能力，特别适合处理大数据集，并且被多种大数据处理框架广泛支持。

3.为什么使用 `to_parquet` 🤔

使用 Parquet 格式将 DataFrame 写入文件有以下几个优点：

高效性：Parquet 格式提供了极高的读写性能，非常适合处理大数据集。
便捷性：将 DataFrame 写入 Parquet 文件非常简单，方便后续读取和分析。
兼容性：Parquet 格式被多种大数据处理框架广泛支持，便于数据交换和处理。

4. `to_parquet` 方法详解 🔍

4.1 方法签名 🖊️

DataFrame.to_parquet(path, engine='auto', compression='snappy', index=None, partition_cols=None, storage_options=None, **kwargs)

4.2 参数解释 📝

path: 类型：str, path object, file-like object。说明：Parquet 文件的路径。
engine: 类型：{‘auto’, ‘pyarrow’, ‘fastparquet’}, default=‘auto’。说明：指定写入 Parquet 文件所使用的引擎。可以选择 ‘pyarrow’ 或 ‘fastparquet’。如果为 ‘auto’，将根据可用的引擎自动选择。
compression: 类型：{‘snappy’, ‘gzip’, ‘brotli’, None}, default=‘snappy’。说明：指定 Parquet 文件的压缩方式。支持 ‘snappy’、‘gzip’、‘brotli’ 和 ‘None’。
index: 类型：bool 类型或 None, default=None。说明：是否写入 DataFrame 的索引。如果为 None，并且 DataFrame 的索引为 RangeIndex，则不会写入索引。
partition_cols: 类型：list, default=None。说明：分区列的名称列表。如果指定了，数据将会基于这些列进行分区存储。
storage_options: 类型：dict, default=None。说明：传递给下层文件系统的存储选项，例如 S3 等远程文件系统。
kwargs: 类型：其他参数。说明：传递给指定引擎的附加参数。

4.3 返回值 📤

to_parquet 方法没有返回值。数据将被写入指定的 Parquet 文件路径。

4.4 示例代码 👨‍💻

4.4.1 将 DataFrame 写入 Parquet 文件 📄

首先，将一个简单的 DataFrame 写入 Parquet 文件。

import pandas as pd

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Score': [90, 85, 88]
})

# 将 DataFrame 写入 Parquet 文件
df.to_parquet('data.parquet')

print("DataFrame 已写入 Parquet 文件 'data.parquet' 中。")

4.4.2 使用压缩选项写入 Parquet 文件 ⏩

接下来，将一个 DataFrame 以不同的压缩方式写入 Parquet 文件。

# 将 DataFrame 写入 Parquet 文件，并使用 GZIP 压缩
df.to_parquet('data_gzip.parquet', compression='gzip')

print("DataFrame 已使用 GZIP 压缩写入 Parquet 文件 'data_gzip.parquet' 中。")

4.5 进阶使用 🚀

4.5.1 分区存储 🌐

分区存储可以将大数据集按指定列进行分区，以便提高读取性能和管理效率。

# 将 DataFrame 按 Age 列分区存储
df.to_parquet('data_partitioned.parquet', partition_cols=['Age'])

print("DataFrame 已按 Age 列分区存储到 Parquet 文件 'data_partitioned.parquet' 中。")

4.5.2 写入远程 Parquet 文件 🗂️

我们可以通过设置存储选项，将 DataFrame 写入远程 Parquet 文件（例如在 S3 上）。

# 将 DataFrame 写入 S3 上的 Parquet 文件
storage_options = {
    'anon': True
}
df.to_parquet('s3://bucket_name/data.parquet', storage_options=storage_options)

print("DataFrame 已写入远程 Parquet 文件 's3://bucket_name/data.parquet' 中。")

4.5.3 包含索引写入 Parquet 文件 📜

在某些情况下，可能需要将 DataFrame 的索引写入 Parquet 文件。

# 将 DataFrame 写入 Parquet 文件，并显式写入索引
df.to_parquet('data_with_index.parquet', index=True)

print("DataFrame（包括索引）已写入 Parquet 文件 'data_with_index.parquet' 中。")