数据规整:连接、联合与重塑
分层索引
- 简介
- 一个轴向上拥有多个索引层级
- 是在更低维度的形式中处理更高维度数据的方式
- 在重塑数据和数组透视表等分组操作中有重要作用
- unstack 重新排列df
- stack 反操作
- 每个轴都可以有分层索引
- 分层的层级可以有名称
- 重排列和层级排列
- sort_index只能在单个层级上对数据进行排序
- sort_index可使得结果按照层级进行字典排序 level=0从最外层进行排序
- 按层级进行汇总统计
- df.sum(level='', axis= ) 使用了groupby机制
- 使用DataFrame的列进行索引
- set_index 将多列或一列作为行索引
- reset_index 反操作 分层索引的索引层级被移动到列中
联合与合并数据集
merge、concat、combine_first等
- 数据库风格的DataFrame连接
- 关系数据库核心:合并或连接操作通过一个或多个键连接行来联合数据集
- merge函数 主要用于将各种join操作运算运用在数据上
- on 指定连接键 没指定的话,默认将重叠列名作为连接键,若列名都不同,可left_on right_on
- how 指定连接方式 默认内连接inner 交集 可指定outer 外连接 并集 left 保留左表 right保留右表
- suffixes 重复列名后缀
- 根据索引合并
- merge方法 right