一,数据规整化-合并数据集
pandas对象中的数据可以通过一些内置的方式进行合并:
- pandas.merge可以根据一个或多个键将不同DataFrame中的行连接起来
- pandas.concat可以沿着一条轴将多个对象堆叠到一起
- combine_first可以将重复数据编结在一起,用一个对象中的值填充另一个对象中的缺失值
01->链接两个DataFrame的方法 pd.merge(df1,df2,on)
import pandas as pd
from pandas import DataFrame,Series
df1 = DataFrame({
"key":list("bbacaab"),
"data1":range(7)})
df2 = DataFrame({
"key":list("abd"),
"data2":range(3)})
pd.merge(df1,df2,on="key")
# 不指定how,默认是内链接,将重叠列当做键,用on指定,取交集
02->两个对象列名不同,可分别进行指定
df3 = DataFrame({
"lkey":list("bbacaab"),
"data1":range(7)})
df4 = DataFrame({
"rkey":list("abd"),
"data2":range(3)})
pd.merge(df3,df4,left_on="lkey",right_on="rkey")
# 不指定how,默认是内链接,取交集
03->
pd.merge(df1,df