pandas中的concat函数：详尽指南

最新推荐文章于 2025-04-03 21:37:46 发布

小桥流水---人工智能

最新推荐文章于 2025-04-03 21:37:46 发布

阅读量9.3k

点赞数 24

分类专栏： Python程序代码人工智能机器学习算法文章标签： pandas

本文链接：https://blog.csdn.net/qlkaicx/article/details/140896738

版权

机器学习算法同时被 3 个专栏收录

308 篇文章

订阅专栏

人工智能

296 篇文章

订阅专栏

Python程序代码

253 篇文章

订阅专栏

concat

concat函数是pandas库中一个强大的工具，用于沿特定轴连接多个DataFrame或Series对象。本指南将深入介绍concat函数，涵盖其语法、参数和实际示例。

objs：一个Series或DataFrame对象的序列或映射。如果传递的是字典，键将用作keys参数。
axis：{0或‘index’，1或‘columns’}，默认0。沿着哪个轴连接。
join：{‘inner’，‘outer’}，默认‘outer’。如何处理其他轴上的索引。
ignore_index：布尔值，默认False。如果为True，不使用连接轴上的索引值。结果轴将被标记为0, …, n - 1。
keys：序列，默认None。如果传递多个级别，应包含元组。使用传递的键构建外部级别的层次索引。
levels：序列列表，默认None。用于构建MultiIndex的特定级别（唯一值）。
names：列表，默认None。结果层次索引中级别的名称。
verify_integrity：布尔值，默认False。检查新轴是否包含重复值。
sort：布尔值，默认False。按字典顺序对非连接轴进行排序。
copy：布尔值，默认True。如果为False，不复制数据（默认总是复制）。

3. 连接DataFrame

按行连接（axis=0）

这是最常见的连接方式，将多个DataFrame按行组合在一起。

import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7']
})

result = pd.concat([df1, df2])
print(result)

输出：

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
0  A4  B4
1  A5  B5
2  A6  B6
3  A7  B7

按列连接（axis=1）

将多个DataFrame按列组合在一起。

df3 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

result = pd.concat([df1, df3], axis=1)
print(result)

输出：

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

4. 处理索引

忽略索引

可以使用ignore_index=True来重新索引结果DataFrame。

result = pd.concat([df1, df2], ignore_index=True)
print(result)

输出：

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5
6  A6  B6
7  A7  B7

使用键

可以使用keys参数为每个DataFrame添加一个键，从而构建层次索引。

result = pd.concat([df1, df2], keys=['df1', 'df2'])
print(result)

输出：

        A   B
df1 0  A0  B0
    1  A1  B1
    2  A2  B2
    3  A3  B3
df2 0  A4  B4
    1  A5  B5
    2  A6  B6
    3  A7  B7

5. 添加层次索引

levels和names参数允许在多级索引中指定级别和值的名称。

result = pd.concat([df1, df2], keys=['df1', 'df2'], names=['DataFrame', 'Row ID'])
print(result)

输出：

                  A   B
DataFrame Row ID          
df1       0      A0  B0
          1      A1  B1
          2      A2  B2
          3      A3  B3
df2       0      A4  B4
          1      A5  B5
          2      A6  B6
          3      A7  B7

6. 合并DataFrame

concat函数也可以用来合并DataFrame，类似于SQL中的联合操作。

df4 = pd.DataFrame({
    'A': ['A8', 'A9', 'A10', 'A11'],
    'B': ['B8', 'B9', 'B10', 'B11']
})

result = pd.concat([df1, df4], ignore_index=True)
print(result)

输出：

     A    B
0   A0   B0
1   A1   B1
2   A2   B2
3   A3   B3
4   A8   B8
5   A9   B9
6  A10  B10
7  A11  B11

7. 最佳实践和提示

选择正确的轴：根据数据的结构选择适当的轴（行或列）进行连接。
注意索引：使用ignore_index或keys参数来处理索引，以确保结果的可读性和可操作性。
检查数据一致性：确保连接的数据结构一致，特别是列名和数据类型。
性能优化：尽量减少不必要的数据复制，可以通过设置copy=False来优化性能。

8. 结论

pandas的concat函数是数据处理过程中非常有用的工具，灵活且强大。通过掌握其语法和参数，可以轻松应对各种数据连接需求，从而提高数据处理效率和代码的可读性。

pandas中的concat函数：详尽指南

concat

目录

1. `concat`简介

2. 语法和参数

3. 连接DataFrame

按行连接（axis=0）

按列连接（axis=1）

4. 处理索引

忽略索引

使用键

5. 添加层次索引

6. 合并DataFrame

7. 最佳实践和提示

8. 结论

pandas中的concat函数：详尽指南

concat

目录

1. concat简介

2. 语法和参数

3. 连接DataFrame

按行连接（axis=0）

按列连接（axis=1）

4. 处理索引

忽略索引

使用键

5. 添加层次索引

6. 合并DataFrame

7. 最佳实践和提示

8. 结论

1. `concat`简介