python 合并数据集_Python 联合与合并数据集 - 树懒学堂

最新推荐文章于 2024-05-23 14:27:52 发布

weixin_39946300

最新推荐文章于 2024-05-23 14:27:52 发布

阅读量324

点赞数

文章标签： python 合并数据集

联合与合并数据集

包含在pandas对象的数据可以通过多种方式联合在一起：

pandas.merge根据一个或多个键将行进行连接。对于SQL或其他关系型数据库的用户来说，这种方式比较熟悉，它实现的是数据库的连接操作。

pandas.concat使对象在轴向上进行黏合或“堆叠”。

combine_first实例方法允许将重叠的数据拼接在一起，以使用一个对象中的值填充另一个对象中的缺失值。

1、数据库风格的DataFrame连接

合并或连接操作通过一个或多个键连接行来联合数据集。这些操作是关系型数据库的核心内容（例如基于SQL的数据库）。pandas中的merge函数主要用于将各种join操作算法运用在你的数据上：

这是一个多对一连接的例子；df1的数据有多个行的标签为a和b，而df2在key列中每个值仅有一行。调用merge处理我们获得的对象：

并没有指定在哪一列上进行连接。如果连接的键信息没有指定，merge会自动将重叠列名作为连接的键。但是，显式地指定连接键才是好的实现：

如果每个对象的列名是不同的，你可以分别为它们指定列名：

默认情况下，merge做的是内连接（’inner’join），结果中的键是两张表的交集。其他可选的选项有’left’、’right’和’outer’。外连接（outer join）是键的并集，联合了左连接和右连接的效果：

下表是对how选项的总结。

2、根据索引合并

在某些情况下，DataFrame中用于合并的键是它的索引。在这种情况下，你可以传递left_index=True或right_index=True（或者都传）来表示索引需要用来作为合并的键：

由于默认的合并方法是连接键相交，可以使用外连接来进行合并：

3、沿轴向连接

另一种数据组合操作可互换地称为拼接、绑定或堆叠。NumPy的concatenate函数可以在NumPy数组上实现该功能：

在Series和DataFrame等pandas对象的上下文中，使用标记的轴可以进一步泛化数组连接。尤其是还有许多需要考虑的事情：

如果对象在其他轴上的索引不同，是否应该将不同的元素组合在这些轴上，还是只使用共享的值（交集）？

连接的数据块是否需要在结果对象中被识别？

“连接轴”是否包含需要保存的数据？

在许多情况下，DataFrame中的默认整数标签在连接期间最好丢弃。

pandas的concat函数提供了一种一致性的方式来解决以上问题。

用列表中的这些对象调用concat方法会将值和索引粘在一起：

默认情况下，concat方法是沿着axis=0的轴向生效的，生成另一个Series。如果传递axis=1，返回的结果则是一个DataFrame（axis=1时是列）：

在这个案例中另一个轴向上并没有重叠，可以看到排序后的索引合集（’outer’ join外连接）。也可以传入join=’inner’：

下表是concat函数的参数。

4 、联合重叠数据

还有另一个数据联合场景，既不是合并操作，也不是连接操作。可能有两个数据集，这两个数据集的索引全部或部分重叠。作为一个示例，考虑NumPy的where函数，这个函数可以进行面向数组的if-else等价操作：

Series有一个combine_first方法，该方法可以等价于下面这种使用pandas常见数据对齐逻辑的轴向操作：

在DataFrame中，combine_first逐列做相同的操作，因此可以认为它是根据传入的对象来”修补“调用对象的缺失值：

weixin_39946300

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 合并数据集_Python 联合与合并数据集 - 树懒学堂

联合与合并数据集包含在pandas对象的数据可以通过多种方式联合在一起：pandas.merge根据一个或多个键将行进行连接。对于SQL或其他关系型数据库的用户来说，这种方式比较熟悉，它实现的是数据库的连接操作。pandas.concat使对象在轴向上进行黏合或“堆叠”。combine_first实例方法允许将重叠的数据拼接在一起，以使用一个对象中的值填充另一个对象中的缺失值。1、数据库风格的Da...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。