上一次介绍了Pandas包中的DataFrame数据结构,以及一些常用的增删改查语句。其中在介绍loc,iloc函数时提到了多重索引。下面主要举例子来说明如何通过多重索引对DataFrame进行切片。
注: 在进行多重索引进行操作之前必须对索引进行排序。
slice的中文意义为切成片。在Python中slice函数的参数有三个,分别为start,stop,stride。
在上述代码中slice('sep','sep')就表示start为sep,stop为sep,stride为1。start默认为当前索引的第一个索引值,stride在默认的情况下为1。stop为不可缺省,必填。当想要取某一列索引下的全部数据时就需要用slice(None)。
在上述两个小示例中,发现slice并不简便,甚至很繁琐。但是要注意到一旦我们想要取的是第二索引列的某几个索引值下的全部数据时就必须要用到slice,常规的取法会有错误。具体示例如下:
上述的方法略微繁琐,所幸在pandas库中提供了一个函数——IndexSlice函数
pd.IndexSlice用法和loc一样,‘:’代表取当前索引列全部,‘A:B’代表取当前索引列的A至B。如果需要取某几个那么和loc函数用法一样,讲这几个索引名视为一个列表如:df.loc[idx[['apr','sep'],['fri','sun','tue']],]这一段代码就是取出month索引列为apr和sep,day为fri,sun,tue的数据。