【Python系列专栏】第六十七篇 Python中 Pandas 合并数据集

最新推荐文章于 2022-10-12 22:22:20 发布

Mrrunsen

最新推荐文章于 2022-10-12 22:22:20 发布

阅读量203

点赞数

分类专栏： Python 文章标签：数据库 python numpy 数据分析 js

本文链接：https://blog.csdn.net/Mrrunsen/article/details/116526421

版权

Python 专栏收录该内容

77 篇文章 9 订阅

订阅专栏

文章目录

- - - 8.2 合并数据集

8.2 合并数据集

pandas对象中的数据可以通过一些方式进行合并：

pandas.merge根据一个或多个键将不同DataFrame中的行连接起来。（它实现的就是数据库的join操作）。
pandas.concat可以沿着一条轴将多个对象堆叠到一起。
combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。

8.2.1 数据库风格的DataFrame合并

数据集的合并或连接运算是通过一个或多个键将行链接起来的。

pandas的merge函数是主要切入点。

merge函数，如果没有指定用哪个列进行连接，就会将重叠列的列名当作键。

pd.merge(df1,df2,on='key')

如果两个对象的列名不同，可以分别指定。

#使用left_on,right_on
pd.merge(df1,df2,left_on='data1',right_on='data2')

merge做的是“内连接”，结果中的键是交集。外连接求取的是键的并集，组合了左连接和右连接的效果。例如：

pd.merge(df1,df2,how='outer')

两个对象中缺失的值表示为NaN。

how的选项：

在这里插入图片描述

上面是多对一的情况，多对多连接产生的是行的笛卡尔积。

对于合并运算需要考虑的一个问题是对重复列名的处理。merge有一个suffixes选项，用于指定附加到左右两个DataFrame对象的重叠列名上的字符串。

merge函数的参数：

8.2.2 索引上的合并

当DataFrame中的连接键位于其索引中，可以传入left_index=True或right_index=True(或两个都传)，以说明索引应该被用作连接键。

例如：

pd.merge(left1,right1,left_on='key',right_index=True,how='outer')

对于层次化索引的数据，索引的合并默认是多键合并：

lefth=pd.DataFrame({'key1':['ohio','ohio','ohio','nevada','nevada'],
                   'key2':[2000,2001,2002,2001,2002],
                   'data':np.arange(5.)})
righth=pd.DataFrame(np.arange(12).reshape((6,2)),index=[['nevada','nevada','ohio','ohio','ohio','ohio'],
[2001,2000,2000,2000,2001,2002]],
                   columns=['event1','event2'])

pd.merge(lefth,righth,left_on=['key1','key2'],right_index=True,how='outer')

在这里插入图片描述

join方法：实现按索引合并；可用于合并多个带有相同或相似索引的DataFrame对象，但要求没有重叠的列。DataFrame的join方法默认使用的是左连接，保留左边表的行索引。

left1.join(right1,on='key')

8.2.3 轴向连接

另一种数据合并运算，也被称作连接、绑定、堆叠。

1. NumPy的concatenation函数可以用NumPy数组实现。

例如：

arr=np.arange(12).reshape((3,4))
#沿轴1连接
np.concatenate([arr,arr],axis=1)

在这里插入图片描述

即，将两个矩阵沿轴进行连接。

2. pandas的concat函数可以实现数组的连接运算。

concat是在axis=0上工作的，产生一个新的Series。如果传入axis=1，结果会变成一个DataFrame。

8.2.4 合并堆叠数据

对于有索引全部或部分堆叠的两个数据集。

用传递对象中的数据为调用对象的缺失数据”打补丁“。

Mrrunsen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python系列专栏】第六十七篇 Python中 Pandas 合并数据集

文章目录8.2 合并数据集8.2.1 数据库风格的DataFrame合并8.2.2 索引上的合并8.2.3 轴向连接8.2.4 合并堆叠数据8.2 合并数据集 pandas对象中的数据可以通过一些方式进行合并：pandas.merge根据一个或多个键将不同DataFrame中的行连接起来。（它实现的就是数据库的join操作）。pandas.concat可以沿着一条轴将多个对象堆叠到一起。combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。8.2
复制链接

扫一扫