import pandas as pd
import numpy as np
级联操作
- pd.concat
pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:
objs
axis=0
keys
join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
ignore_index=False
- 匹配级联
df1 = pd.DataFrame(data=np.random.randint(0,100,size=(4,3)),columns=[‘A’,‘B’,‘C’])
df1
df2 = pd.DataFrame(data=np.random.randint(0,100,size=(4,4)),columns=[‘A’,‘B’,‘C’,‘D’])
df2
- 匹配级联:将多个df进行横向或者纵向拼接的时候,df的行列索引是一致
pd.concat((df1,df1),axis=0)
pd.concat((df1,df1),axis=1)
- 不匹配级联
- 不匹配指的是级联的纬度的索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不一致
- 有2种级联方式:
- 外连接outer:补NaN(默认模式)
- 内连接inner:只连接匹配的项
pd.concat((df1,df2),axis=0,join=‘outer’) #能级联的就级联,否则就补空
pd.concat((df1,df2),axis=0,join=‘inner’) #inner表示只可以将可以级联的行列进行级联
合并操作
- merge与concat的区别在于,merge需要依据某一共同列来进行合并
- 使用pd.merge()合并时,会自动根据两者相同column名称的那一列,作为key来进行合并。
- 注意每一列元素的顺序不要求一致
一对一合并
from pandas import DataFrame
df1 = DataFrame({‘employee’:[‘Bob’,‘Jake’,‘Lisa’],
‘group’:[‘Accounting’,‘Engineering’,‘Engineering’],
})
df1
df2 = DataFrame({‘employee’:[‘Lisa’,‘Bob’,‘Jake’],
‘hire_date’:[2004,2008,2012],
})
df2
pd.merge(left=df1,right=df2,on=‘employee’) #参数on是用来指定合并条件
一对多合并
df3 = DataFrame({
‘employee’:[‘Lisa’,‘Jake’],
‘group’:[‘Accounting’,‘Engineering’],
‘hire_date’:[2004,2016]})
df3
df4 = DataFrame({‘group’:[‘Accounting’,‘Engineering’,‘Engineering’],
‘supervisor’:[‘Carly’,‘Guido’,‘Steve’]
})
df4
pd.merge(left=df3,right=df4,on=‘group’)
多对多合并
df1 = DataFrame({‘employee’:[‘Bob’,‘Jake’,‘Lisa’],
‘group’:[‘Accounting’,‘Engineering’,‘Engineering’]})
df1
df2 = DataFrame({‘group’:[‘Engineering’,‘Engineering’,‘HR’],
‘supervisor’:[‘Carly’,‘Guido’,‘Steve’]
})
df2