首先了解一下什么是多级索引,以及它的作用,为什么要有这个玩意。
多级索引也称为层次化索引(hierarchical indexing),是指数据在一个轴上(行或者列)拥有多个(两个以上)索引级别。之所以引入多级索引,在于它可以使用户能以低维度形式处理高维度数据。这句话可能不太好理解,下面举个栗子:
在一张二维表格中可以方便的存储两个维度的数据,比如我们现在有一张高三八班的期末考试成绩表,第一个维度行是某个学生各科的考试成绩,另一个维度列是某一科所有学生的成绩
image.png
现在在加入一个维度:不同的班级。即如果我们想在这张表上在加上高三七班同样的成绩该怎么操作?这时候我们就可以在行上在加入一个班级的维度,如下:
image.png
正常情况下,不同的班级的所有学生的成绩应该是引入不同的表格来存储,即三八班和三七班是两张表。但是引入多级索引就可以把这两张表整合在一起,即所谓的以低维度形式处理高维度的数据。 这种情况在每张表数据量不大或者字段不多的时候使用起来比较方便
1. 多级索引的创建
通常由两种方式创建多级索引:
通过多级数组隐式创建
通过pd.MultiIndex显示创建
下面分别举例
方法1-隐式创建,即给DataFrame的index或columns参数传递两个或更多的数组。
import pandas as pd
import numpy as np
from pandas import DataFrame, Series
df = DataFrame (np.random.randint ( 0 , 100 ,( 4 , 6 )),
index = ['学生' + i for i in 'ABCD'],
columns =[[ '数学' , '数学' , '语文' , '语文' , '英语' , '英语' ],
[ '期中' , '期末' , '期中' , '期末' , '期中' , '期末' ]])
df
上面通过在columns传入一个二维数组来隐式创建多级索引,结果如下:
image.png
仔细观察就可以发现上面的表格中包含学生(A/B/C/D)、科目(数学/语文)、考试阶段(