第七章 数据规整化:清理、转换、合并、重塑
合并数据集
- pandas.merge:根据键将不同DataFrame中的行连接起来。
#默认做inner连接
pandas.merge(df1, df2, on=['key_a', 'key_b',...], how='outer')
# 两个对象列名不同可以分别指定
pandas.merge(df1, df2, left_on='key1', right_on='key2', how='outer')
# left_index=True或right_index=True说明索引应该被用作连接键
pandas.merge(df1,df2,left_on='key',right_index=True)
#对于层次化索引,必须以列表的形式指明用作合并键的多个列(注意对重复索引值的处理)
#join方法
df2.join(df1, how='outer')
轴索引
- pandas.concat:沿着一条轴将多个对象堆叠到一起
默认axis=0(行),如果axis=1,则结果变成DataFrame。
合并重叠数据
#用df2填补df1的空值
df1.combine_first(df2)
重塑和轴向旋转
重塑层次化索引
- stack():列->行
- unstack():行->列
将“长格