本文概述
当我们想要串联我们的DataFrame时, 我们可以通过垂直或并排堆叠它们来相互添加。组合这些DataFrame的另一种方法是在每个数据集中使用包含公用值的列。使用公共字段组合DataFrame的方法称为”连接”。我们用于组合DataFrame的方法是join()方法。包含公用值的列称为”联接键”。
当一个DataFrame是一个查找表, 其中包含添加到另一个DataFrame中的其他数据时, join()方法通常很有用。这是一种方便的方法, 可以将两个索引不同的DataFrame的列合并为一个DataFrame。
识别联接键
为了确定适当的连接键, 首先, 我们必须定义在DataFrame之间共享的必填字段。这两个DataFrame都由具有相同名称并且包含相同数据的列组成。
内部联接
内部联接可以定义为最常用的联接。基本上, 其主要任务是基于连接键将两个DataFrame组合在一起并返回一个新的DataFrame。返回的DataFrame仅包含在两个原始DataFrame中都具有匹配值的选定行。
左联接
如果我们想在不丢失任何数据的情况下向DataFrame中添加一些信息, 我们可以简单地通过称为”左外部连接”或”左连接”的另一种类型的连接来做到这一点。
像内部联接一样, 左联接也使用联接键来组合两个DataFrame, 但是与内部联接不同, 它会返回左侧DataFrame的所有行, 即使那些联接键不包含右侧DataFrame中值的行也是如此。
句法
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
参数
其他:指的是DataFrame或Series。
在这种情况下, 索引应类似于列之一。如果传递了Series, 则必须设置name