Pandas 中有一些内置的合并数据集函数,具体如下:
- pandas.merge():依据一个或多个键将多个DataFrame连接起来,类似于数据库连接;
- pandas.concat():可以沿着一个轴将多个对象堆叠起来;
- combine_first():可以将重复数据编制在一起,用以填充另一个对象的缺失值。
df1.combine_first(df2)
Pandas.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False,
copy=True)
objs:Series,DataFrame或Panel对象的序列或映射。
axis:{0,1,…},默认为0,沿着连接的轴。0是按列轴方向合并行数据,1是按行轴方向合并列数据。
join:{‘inner’,‘outer’},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
how:连接方式,默认为inner,可设为inner,可设为outer/left/right;
left:仅保留左表的键;
right:仅保留右表的键;
outer:两表的键取并集;
inner:两表的键取交集。
on:用来对