DataFrame系列3之Pandas.DataFrame操作表连接三种方式：merge, join, concat

最新推荐文章于 2024-04-25 19:51:14 发布

J小白Y

最新推荐文章于 2024-04-25 19:51:14 发布

阅读量2.3k

点赞数 1

分类专栏： Python小白的进阶之路文章标签： python

本文链接：https://blog.csdn.net/jarry_cm/article/details/105559212

版权

Python小白的进阶之路专栏收录该内容

54 篇文章 19 订阅

订阅专栏

1.concat

2.JOIN

3.merge

作为DataFrame系列的第三部分，主要是对两个DataFrame之间的关联进行介绍。

以下面两个DataFrame为例进行语法的介绍：

df_1 = pd.read_csv('D:/traindatas/map_1.csv', sep=',', header='infer')  # 测试集
df_2 = pd.read_csv('D:/traindatas/map_2.csv', sep=',', header='infer')  # 测试集

1.concat

concat 轴向连接。就是单纯地把两个表拼在一起，这个过程也被称作绑定（binding）或堆叠（stacking）。函数的关键参数应该是 axis

默认值：axis=0

axis=0：竖方向（index）合并，合并方向index作列表相加，非合并方向columns取并集

axis=1：横方向（columns）合并，合并方向columns作列表相加，非合并方向index取并集

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

1)默认情况

注意到这里，左表和右表没有一个单元格是一样的，只是按照行索引水平堆在了一起

pd.concat([df_1, df_2])

2)axis=0

是根据id相同的堆叠在一起，相当于full join操作

pd.concat([df_1, df_2],axis=0)

3)axis=1 注意到这里，左表和右表不是根据id一样拼在一起的，只是按照行索引水平堆在了一起

pd.concat([df_1, df_2],axis=1)

2.JOIN

JOIN 拼接列，主要用于基于行索引上的合并。

只要两个表列名不同，不加任何参数就可以直接用。
如果两个表有重复的列名，需指定lsuffix, rsuffix参数。
默认左外连接how=left

df1.join(df2, lsuffix='_l', rsuffix='_r') # 列名重复的时候需要指定lsuffix, rsuffix参数

1)axis=0时join='inner'，columns取交集：

2)axis=1时join='inner'，index取交集：

3.merge

默认以重叠列名当做链接键；默认是INNER JOIN
可以多键连接，'on'参数后传入多键列表即可
如果两个对象的列表不同，可以用left_on, right_on指定。
也可以用行索引当连接键，使用参数left_index=True, right_index=True. 但是这种情况下最好用JOIN

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=True,
      suffixes=('_x', '_y'), copy=True, indicator=False)