文章目录
[ Pandas version: 1.0.1 ]
五、层级索引
对于存储多维数据的需求,数据索引超过一两个键,Pandas提供了Panel和Panel4D对象解决三维数据和四维数据。(本文不涉及Panel)
而实践中,更直观的形式是通过层级索引(hierarchical indexing, 或多级索引 multi-indexing)配合多个有不同等级的一级索引一起使用,可以将高维数组转换成类似一维Series和二维DataFrame对象的形式。
(一)多级索引Series
1. 低效方法:用Python元组表示索引
import numpy as np
import pandas as pd
# 用一维Series对象表示二维数据
# 1. 笨方法:用Python元组表示索引
index = [('California', 2000), ('California', 2010), ('New York', 2000),
('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop
# (California, 2000) 33871648
# (California, 2010) 37253956
# (New York, 2000) 18976457
# (New York, 2010) 19378102
# (Texas, 2000) 20851820
# (Texas, 2010) 25145561
# dtype: int64
# 通过元组构成的多级索引在Series上取值或切片查询
pop[('California', 2010):('Texas', 2000)]
# (California, 2010) 37253956
# (New York, 2000) 18976457
# (New York, 2010) 19378102
# (Texas, 2000) 20851820
# dtype: int64
# 选择2000年的数据(效率低)
pop[[i for i in pop.index if i[1] == 2010]]
# (California, 2010) 37253956
# (New York, 2010) 19378102
# (Texas, 2010) 25145561
# dtype: int64
2. 高效方法:Pandas多级索引
Pandas的MultiIndex
类型:
levels
属性表示索引的等级,可以将索引作为每个数据点的不同标签reindex
方法将索引重置
# Pandas的MultiIndex类型
# 用元组创建一个多级索引
index = pd.MultiIndex.from_tuples(index)
index
# MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
# codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])
# 重置索引
pop = pop.reindex(index)
pop
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
# 切片查询:可直接用第二个索引获取2010年数据,获取单索引数组
pop[:, 2010]
# California 37253956
# New York 19378102
# Texas 25145561
# dtype: int64
3. 高维数据的多维索引
unstack()
方法将一个多集索引的Series转化为普通索引的DataFrame。反之,stack()
方法将DataFrame转化为Series。
如果可以用含多级索引的一维Series数据表示二维数据,就可以用Series或DataFrame表示三维甚至更高维度的数据。
多级索引每增加一级,就表示数据增加一维,利用这个特点可以轻松表示任意维度的数据。
pop_df = pop.unstack()
pop_df
# 2000 2010
# California 33871648 37253956
# New York 18976457 19378102
# Texas 20851820 25145561
pop_df.stack()
# California 2000 33871648
# 2010 37253956