💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。

【Python系列】Parquet 数据处理与合并:高效数据操作实践_python

  • 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老
  • 导航
  • 檀越剑指大厂系列:全面总结 java 核心技术,jvm,并发编程 redis,kafka,Spring,微服务等
  • 常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,typora 等
  • 数据库系列:详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等
  • 新空间代码工作室:提供各种软件服务,承接各种毕业设计,毕业论文等
  • 懒人运维系列:总结好用的命令,解放双手不香吗?能用一个命令完成绝不用两个操作
  • 数据结构与算法系列:总结数据结构和算法,不同类型针对性训练,提升编程思维,剑指大厂

非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨

博客目录
  • 1.Parquet 文件简介
  • 2.环境准备
  • 3.读取 Parquet 文件
  • 4.数据清洗
  • 5.数据合并
  • 6.写入 Parquet 文件
  • 7.性能优化
  • 8.总结

在大数据时代,数据的存储、处理和分析变得尤为重要。Parquet 作为一种高效的列存储格式,被广泛应用于大数据处理框架中,如 Apache Spark、Apache Hive 等。

【Python系列】Parquet 数据处理与合并:高效数据操作实践_开发语言_02

1.Parquet 文件简介

Parquet 是一个开源的列存储格式,它被设计用于支持复杂的嵌套数据结构,同时提供高效的压缩和编码方案,以优化存储空间和查询性能。Parquet 文件可以被多种数据处理工具读取和写入,包括 Hadoop、Pig、Hive 等。

2.环境准备

在开始之前,确保你的 Python 环境中已经安装了 Pandas 库和 pyarrow(用于读写 Parquet 文件)。如果尚未安装,可以通过以下命令进行安装:

pip install pandas pyarrow
  • 1.
import pandas as pd

path1 = 'create_final_entities.parquet'

path2 = '1111/create_final_entities.parquet'

# 读取Parquet文件
df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)

# 修改df1中每一条记录的name字段首尾的引号
df1['name'] = df1['name'].str.strip('"')
df1['type'] = df1['type'].str.strip('"')
df1['description'] = df1['description'].str.strip('"')

# 合并两个DataFrame
df_combined = pd.concat([df1, df2], ignore_index=True)

# 定义新文件的路径
output_path = '2222/create_final_entities.parquet'

# 将合并后的数据写入新的Parquet文件
df_combined.to_parquet(output_path)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.

3.读取 Parquet 文件

在 Python 脚本中,我们首先导入必要的库,并定义 Parquet 文件的路径。使用pd.read_parquet()函数可以轻松读取 Parquet 文件到 DataFrame 对象中。示例中,我们有两个 Parquet 文件,分别存储在不同的路径下。

import pandas as pd

path1 = 'create_final_entities.parquet'
path2 = '1111/create_final_entities.parquet'

df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.

4.数据清洗

在实际的数据操作过程中,经常需要对数据进行清洗,以确保数据的质量和一致性。在本例中,我们对df1中的nametypedescription字段进行了清洗,去除了字段值首尾的引号。

df1['name'] = df1['name'].str.strip('"')
df1['type'] = df1['type'].str.strip('"')
df1['description'] = df1['description'].str.strip('"')
  • 1.
  • 2.
  • 3.

5.数据合并

数据合并是数据分析中常见的操作之一。在本例中,我们使用pd.concat()函数将两个 DataFrame 对象合并为一个新的 DataFrame。ignore_index=True参数确保合并后的 DataFrame 索引是连续的,而不是重复的。

df_combined = pd.concat([df1, df2], ignore_index=True)
  • 1.

6.写入 Parquet 文件

完成数据合并后,我们通常需要将结果保存到新的文件中。使用to_parquet()函数可以将 DataFrame 对象写入 Parquet 文件。在写入之前,我们需要定义新文件的存储路径。

output_path = '2222/create_final_entities.parquet'
df_combined.to_parquet(output_path)
  • 1.
  • 2.

7.性能优化

在处理大规模数据时,性能是一个重要的考虑因素。Parquet 格式本身就提供了高效的压缩和编码方案,但我们还可以通过以下方式进一步优化性能:

  1. 选择合适的列进行读取:如果只需要部分列,可以在读取时指定列,减少内存消耗。
  2. 使用分区存储:如果数据集很大,可以考虑使用 Hive 或 Impala 等工具进行分区存储,以优化查询性能。
  3. 并行处理:利用 Python 的多线程或多进程能力,或者使用 Spark 等分布式计算框架进行并行处理。

8.总结

通过上述步骤,我们展示了如何使用 Python 和 Pandas 库对 Parquet 文件进行高效的数据处理和合并。Parquet 文件格式以其高效的存储和查询性能,在大数据处理领域中扮演着重要角色。掌握这些基本操作,将有助于数据分析师和工程师在面对大规模数据集时,更加高效地进行数据处理和分析工作。

觉得有用的话点个赞 👍🏻 呗。
❤️❤️❤️本人水平有限,如有纰漏,欢迎各位大佬评论批评指正!😄😄😄

💘💘💘如果觉得这篇文对你有帮助的话,也请给个点赞、收藏下吧,非常感谢!👍 👍 👍

🔥🔥🔥Stay Hungry Stay Foolish 道阻且长,行则将至,让我们一起加油吧!🌙🌙🌙

【Python系列】Parquet 数据处理与合并:高效数据操作实践_python_03