说明:本blog基于python3, pandas 1.3.5, numpy 1.22.0版本
文章目录
前言
本文主要介绍pandas的分层索引构建,按层级对换和排序,按层级聚合,共3个部分。并附有代码实例。其中分层索引构建由Series和DataFrame两个研究对象组成;其他两个部分都是以DataFrame为基础。
一、分层索引构建
1.1 Series数据结构
我们可以采用如下方式创建分层索引
import pandas as pd
import numpy as np
a = pd.Series([1,2,3,4,5,6], index = [["a", "a", "b", "b", "c", "c"],["11","22","11","22","11","22"]])
print(a)
###结果
#a 11 1
# 22 2
#b 11 3
# 22 4
#c 11 5
# 22 6
#dtype: int64
由此可见,有几层索引,index参数就是长度为几的list,list中的每个元素依然是list,长度必须与Series长度相等!!!
本题如果我们想取出索引为 “b” 的数组
b = a["b"]
print(b)
结果如下
11 3
22 4
dtype: int64
本题如果我们想取出索引为 (“b” ,“11”)的数组
c = a["b","11"]
print(c)
结果如下
3
很好,符合我们预期
其实,与正常Series取某索引的方法相同。
1.2 两层索引的Series转化为DataFrame
然后,我们想把含有两层索引的Series转化为DataFrame,
使用unstack方法, 方法原理是Series外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns
代码如下
###由分层索引的Series转化为DataFrame,外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns
d = a.unstack()
print