【Pandas】一文向您详细介绍 pd.concat()

高斯小哥

已于 2024-05-25 12:44:05 修改

阅读量1.5k

点赞数 9

分类专栏： Pandas 文章标签： pandas 新手入门学习 python

于 2024-05-24 13:21:50 首次发布

本文链接：https://blog.csdn.net/qq_41813454/article/details/138979755

版权

Pandas 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

【Pandas】一文向您详细介绍 pd.concat()

下滑即可查看博客内容
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！🎇

🎓 博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的 中科院顶刊一作论文，熟练掌握PyTorch框架。

🔧 技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章500余篇，代码分享次数逾四万次。

💡 服务项目：包括但不限于科研入门辅导、知识付费答疑以及个性化需求解决。

下滑即可查看博客内容

🔗 一、引言：为何需要`pd.concat()`？

在数据分析的世界里，我们经常会遇到需要将多个数据集合并成一个数据集的情况。无论是为了扩大样本量、整合不同来源的数据，还是为了进行更复杂的分析，数据合并都是一个必不可少的步骤。Pandas库中的pd.concat()函数就是这样一个强大的工具，它能够帮助我们轻松实现数据集的合并。

为什么选择`pd.concat()`？

pd.concat()函数在Pandas库中有着举足轻重的地位。它允许我们按照指定的轴（行或列）将多个DataFrame或Series对象连接在一起。与其他合并函数（如merge()和join()）相比，pd.concat()在处理非关系型数据（如时间序列数据）时更加灵活和高效。

🧩 二、基础用法：`pd.concat()`的基本操作

示例代码：合并两个DataFrame

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

# 使用pd.concat()合并两个DataFrame
result = pd.concat([df1, df2])
print(result)

在上面的示例中，我们创建了两个具有相同列但不同行的DataFrame，并使用pd.concat()将它们合并成一个新的DataFrame。默认情况下，pd.concat()会按照行（即轴0）进行合并。

运行结果：

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

参数详解

objs: 一个或多个序列或映射对象（如DataFrame、Series等），要合并的对象列表。
axis: 要连接的轴，默认为0。0表示按行连接，1表示按列连接。
join: 连接类型，默认为’outer’。'outer’表示外连接（保留所有行/列），'inner’表示内连接（只保留公共行/列）。
ignore_index: 是否重置结果的索引，默认为False。如果为True，则结果索引将是整数。
其他参数还包括keys、levels、names、verify_integrity等，用于更复杂的合并操作。

💡 三、举一反三：`pd.concat()`的高级应用

1. 合并多个DataFrame

pd.concat()可以一次性合并多个DataFrame，只需将它们放入一个列表中作为objs参数的值即可。

2. 按列合并DataFrame

通过设置axis=1参数，我们可以将多个DataFrame按列进行合并。但需要注意的是，按列合并时要求所有DataFrame具有相同的行数。

3. 使用`keys`参数添加层次化索引

通过keys参数，我们可以为合并后的DataFrame添加层次化索引（MultiIndex）。这对于跟踪不同数据源或数据集非常有用。

示例代码：使用`keys`参数

# 创建两个DataFrame
df3 = pd.DataFrame({'X': ['X0', 'X1', 'X2'],
                    'Y': ['Y0', 'Y1', 'Y2']},
                   index=[0, 1, 2])

df4 = pd.DataFrame({'X': ['X3', 'X4', 'X5'],
                    'Y': ['Y3', 'Y4', 'Y5']},
                   index=[0, 1, 2])

# 使用pd.concat()合并两个DataFrame，并添加keys参数
result_with_keys = pd.concat([df3, df4], keys=['df3', 'df4'])
print(result_with_keys)

运行结果：

        X   Y
df3 0  X0  Y0
    1  X1  Y1
    2  X2  Y2
df4 0  X3  Y3
    1  X4  Y4
    2  X5  Y5

🌈 四、以小见大：`pd.concat()`的实用案例

实用案例：时间序列数据合并

在处理时间序列数据时，我们经常需要将多个时间段的数据合并成一个连续的数据集。pd.concat()在这方面表现出色，因为它不需要考虑数据的关联性，只需按照时间顺序进行合并即可。

示例代码：合并时间序列数据

import pandas as pd
import numpy as np

# 创建两个时间序列DataFrame
index1 = pd.date_range('2023-01-01', periods=3, freq='D')
df_jan = pd.DataFrame({'Value': np.random.randn(3)}, index=index1)

index2 = pd.date_range('2023-02-01', periods=4, freq='D')
df_feb = pd.DataFrame({'Value': np.random.randn(4)}, index=index2)

# 使用pd.concat()合并时间序列数据
result_ts = pd.concat([df_jan, df_feb])
result_ts = result_ts.sort_index()  # 对合并后的DataFrame按索引进行排序
print(result_ts)

在上面的示例中，我们创建了两个包含随机数值的时间序列DataFrame，分别代表1月和2月的数据。使用pd.concat()将它们合并后，我们得到了一个跨越两个月份的时间序列数据集。通过sort_index()方法，我们可以确保合并后的数据集按时间顺序排列。

运行结果：

               Value
2023-01-01 -1.300713
2023-01-02  0.526709
2023-01-03 -0.224012
2023-02-01  0.202537
2023-02-02 -0.102265
2023-02-03 -0.614718
2023-02-04 -0.048738

🔍 五、升华主题：`pd.concat()`与其他合并函数的对比

虽然pd.concat()是一个非常强大的工具，但在某些情况下，其他合并函数（如merge()和join()）可能更为合适。以下是它们之间的主要区别：

pd.concat(): 适用于非关系型数据的合并，按照行或列进行连接。它不需要考虑数据之间的关联性，只需按照指定的轴进行连接即可。
merge(): 适用于关系型数据的合并，基于两个DataFrame之间的共同列（如主键和外键）进行连接。它支持多种连接类型（如内连接、外连接等），并可以根据需要指定连接条件。
join(): 是merge()的一种简化形式，用于在具有相同索引的DataFrame之间进行连接。它主要基于索引进行合并，而不是基于列值。

📈 六、性能优化与注意事项

虽然pd.concat()在处理大多数数据集时都能表现出色，但在处理大型数据集时，性能可能会成为一个问题。以下是一些性能优化和注意事项：

避免不必要的复制：在合并之前，确保要合并的DataFrame具有相同的dtype和数据结构。这可以减少在合并过程中产生的不必要的数据复制。
使用适当的参数：根据具体需求选择合适的参数值。例如，如果不需要保留原始索引，可以设置ignore_index=True以减少内存使用。
考虑其他合并方法：在处理大型数据集时，可以考虑使用其他合并方法（如数据库连接或分布式计算框架）来提高性能。
避免循环调用：尽量避免在循环中多次调用pd.concat()。相反，可以尝试将多个DataFrame收集到一个列表中，然后一次性调用pd.concat()进行合并。