一起学习,一起成长!
python是一款简洁又灵活的编程语言。如SQL、R语言、Java等语言,python在数据处理与分析中拥有多种合并数据集的方法,比如我们之前介绍过的数据库风格的合并方法。pandas 是python用于数据分析包中的一种,DataFrame是pandas重要的数据结构。我们可以简单理解DataFrame就如同excel或csv文件存储的数据格式,亦或是MySQL数据库表中的数据展现方式。
索引上的合并
DataFrame中的连接键位于其索引中。在这种情况下,可以传入left_index=True或right_index=True(或两个都传)以说明索引应该被用作连接键,具体举例如下:
首先,我们先来学习“right_index=True”参数的效果:
merge方法默认是求取连接键的交集,因此可以通过外连接(how=’outer’)的方式得到它们的并集:
层次化索引
层次化索引是pandas的一项重要功能,它使你能在一轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。在合并数据集上,对于层次化索引的数据,相对较为复杂,具体通过下述例子进行说明:
如果遇到将多个列作为键进行合并的场景时,我们需要以列表的形式指明用作合并键的多个列,特别注意过程中对重复索引值的处理,具体说明如下:
接下来,我们一起来查看一同传入left_index=True和right_index=True两个参数的情况,具体如下:
使用“join()”进行索引合并
DataFrame还有一个join实例方法,它能更为方便地实现按索引合并。它还可用于合并多个带有相同或相似索引的DataFrame对象,而不管它们之间有没有重叠的列。
向join传入一组DataFrame
通过向join传入一组DataFrame,实现数据集列合并,具体如下所示:
总体来说,使用python包pandas进行数据集合并的方法较为丰富,覆盖场景较多,且能方便、快捷的完成。而且数据集合并在数据处理过程中经常遇到,所以对其方法的熟练应用,掌握其本质可以更灵活的运用。合并数据集后,可以进行相应的数据分析、数据可视化、机器学习或深度学习,具体根据自身的需要而进行。
「亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个关注哦!感谢!」
「文中代码均亲测过,若有错误之处,欢迎批评指正,一起学习,一起成长!」