pandas对象中的数据可以通过一些内置的方法进行合并:pandas.merge,pandas.concat,实例方法join,combine_first,它们的使用对象和效果都是不同的,下面进行区分和比较。
1、pandas.merge
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
'data1': range(7)})
df2 = DataFrame({ 'key': ['a', 'b', 'd'],
'data2': range(3),
'data3':range(3,6)})
DF = pd.merge(df1, df2)
![f410dc28855b5e5b99c798bb5e94cc5a.png](https://i-blog.csdnimg.cn/blog_migrate/48f92064e5e500aeeea80a4e86f8cf79.jpeg)
通过设置merge参数'on','left_on','right_on'可以指定用来连接的列(即关键的重复内容列),也可以将index作为连接键,只要传入left_index=True或right_index=True(或两个都传)来说明索引被用作连接键,例:
left1 = DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],
'value': range(6)})
right1 = DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])
lr=pd.merge(left1, right1, left_on='key', right_index=True)
![2ad87d178e0fe181a8f49ec33482abbc.png](https://i-blog.csdnimg.cn/blog_migrate/a3b6679e082806964f349abce0198bf7.jpeg)
2、join
实例方法join默认通过index来进行连接:
left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'],
columns=['Ohio', 'Nevada'])
right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
index=['b', 'c', 'd', 'e'], columns=['Missouri', 'Alabama'])
lr2=left2.join(right2, how='left')
![1a69004cca6dcf3160264dbdb0d29e42.png](https://i-blog.csdnimg.cn/blog_migrate/c85a4f2b4351c19544320acc6c52c82b.jpeg)
3、pd.concat
要实现行之间的连接,要使用pd.concat方法,例:
s1 = Series([0, 1], index=['a', 'b'])
s2 = Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = Series([5, 6], index=['f', 'g'])
ss=pd.concat([s1, s2, s3])
st=pd.concat([s1,s2,s3],axis=1)
![e776aa7780e20bcaec6653d5e7ea10af.png](https://i-blog.csdnimg.cn/blog_migrate/7d864016a9f63f3b4a22173fb5507c6e.jpeg)
4、combine_first
它实现既不是行之间的连接,也不是列之间的连接,它在为数据“打补丁”:用参数对象中的数据为调用者对象的缺失数据“打补丁”。例:
a = Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan],
index=['f', 'e', 'd', 'c', 'b', 'a'])
b = Series(np.arange(len(a), dtype=np.float64),
index=['f', 'e', 'd', 'c', 'b', 'a'])
b[-1] = np.nan
c=b[:-2].combine_first(a[2:])
df1 = DataFrame({'a': [1., np.nan, 5., np.nan],
'b': [np.nan, 2., np.nan, 6.],
'c': range(2, 18, 4)})
df2 = DataFrame({'a': [5., 4., np.nan, 3., 7.],
'b': [np.nan, 3., 4., 6., 8.]})
df=df1.combine_first(df2)