python 合并数据集_python的5种索引合并数据集方法及其差别

python是一款简洁又灵活的编程语言。如SQL、R语言、Java等语言,python在数据处理与分析中拥有多种合并数据集的方法,比如我们之前介绍过的数据库风格的合并方法。pandas 是python用于数据分析包中的一种,DataFrame是pandas重要的数据结构。我们可以简单理解DataFrame就如同excel或csv文件存储的数据格式,亦或是MySQL数据库表中的数据展现方式。

索引上的合并

DataFrame中的连接键位于其索引中。在这种情况下,可以传入left_index=True或right_index=True(或两个都传)以说明索引应该被用作连接键,具体举例如下:

首先,我们先来学习“right_index=True”参数的效果:

merge方法默认是求取连接键的交集,因此可以通过外连接(how=’outer’)的方式得到它们的并集:

层次化索引

层次化索引是pandas的一项重要功能,它使你能在一轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。在合并数据集上,对于层次化索引的数据,相对较为复杂,具体通过下述例子进行说明:

如果遇到将多个列作为键进行合并的场景时,我们需要以列表的形式指明用作合并键的多个列,特别注意过程中对重复索引值的处理,具体说明如下:

接下来,我们一起来查看一同传入left_index=True和right_index=True两个参数的情况,具体如下:

使用“join()”进行索引合并

DataFrame还有一个join实例方法,它能更为方便地实现按索引合并。它还可用于合并多个带有相同或相似索引的DataFrame对象,而不管它们之间有没有重叠的列。

向join传入一组DataFrame

通过向join传入一组DataFrame,实现数据集列合并,具体如下所示:

总体来说,使用python包pandas进行数据集合并的方法较为丰富,覆盖场景较多,且能方便、快捷的完成。而且数据集合并在数据处理过程中经常遇到,所以对其方法的熟练应用,掌握其本质可以更灵活的运用。合并数据集后,可以进行相应的数据分析、数据可视化、机器学习或深度学习,具体根据自身的需要而进行。

「亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个关注哦!感谢!」

「文中代码均亲测过,若有错误之处,欢迎批评指正,一起学习,一起成长!」

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值