merge 通过键拼接列
用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中的 JOIN。
该函数的典型应用场景是,针对同一个主键存在两张包含不同字段的表,现在我们想把他们整合到一张表里。
在此典型情况下,结果集的行数并没有增加,列数则为两个元数据的列数和减去连接键的数量。
join 拼接列,主要用于索引上的合并
join方法提供了一个简便的方法用于将两个DataFrame中的
不同的列索引合并成为一个DataFrame
其中参数的意义与merge方法基本相同,只是join方法默认为左外连接how=left
- join(self, other, on=None, how='left', lsuffix='', rsuffix='',sort=False):
1.默认按索引合并,可以合并相同或相似的索引,不管他们有没有重叠列。
2.可以连接多个DataFrame
3.可以连接除索引外的其他列
4.连接方式用参数how控制
5.通过lsuffix='', rsuffix='' 区分相同列名的列
concat方法相当于数据库中的全连接(UNION ALL),可以指定按某个轴进行连接,也可以指定连接的方式join(outer,inner 只有这两种)。与数据库不同的时concat不会去重,要达到去重的效果可以使用drop_duplicates方法
轴向连接 pd.concat() 就是单纯地把两个表拼在一起,这个过程也被称作连接(concatenation)、绑定(binding)或堆叠(stacking)。因此可以想见,这个函数的关键参数应该是 axis,用于指定连接的轴向。
- concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
- keys=None, levels=None, names=None, verify_integrity=False, copy=True):
在默认的
axis=0 情况下,pd.concat([obj1,obj2]) 函数的效果与 obj1.append(obj2) 是相同的;
而在
axis=1 的情况下,pd.concat([df1,df2],axis=1) 的效果与 pd.merge(df1,df2,left_index=True,right_index=True,how='outer') 是相同的。
可以理解为 concat 函数使用索引作为“连接键”。
axis=0 是连接轴向join='outer' 参数作用于当另一条轴的 index 不重叠的时候,只有 'inner' 和 'outer' 可选(顺带展示 ignore_index=True 的用法)
concat 一些特点:
1.作用于Series时,如果在axis=0时,类似union。axis=1 时,组成一个DataFrame,索引是union后的,列是类似join后的结果。
2.通过参数join_axes=[] 指定自定义索引。
3.通过参数keys=[] 创建层次化索引
4.通过参数ignore_index=True 重建索引。