[Python3] Pandas v1.0 —— (三) 层级索引

最新推荐文章于 2024-01-01 21:47:35 发布

TreasureAI

最新推荐文章于 2024-01-01 21:47:35 发布

阅读量960

点赞数 2

本文链接：https://blog.csdn.net/Treasure99/article/details/105585231

版权

本文详细介绍了Pandas 1.0中的层级索引，包括如何创建多级索引的Series和DataFrame，多级索引的取值、切片操作，以及行列转换、数据累计方法。通过实例展示了如何利用层级索引高效处理高维数据，提升数据操作的灵活性和便利性。

摘要由CSDN通过智能技术生成

文章目录

- 五、层级索引

[ Pandas version: 1.0.1 ]

五、层级索引

对于存储多维数据的需求，数据索引超过一两个键，Pandas提供了Panel和Panel4D对象解决三维数据和四维数据。（本文不涉及Panel）

而实践中，更直观的形式是通过层级索引（hierarchical indexing, 或多级索引 multi-indexing）配合多个有不同等级的一级索引一起使用，可以将高维数组转换成类似一维Series和二维DataFrame对象的形式。

（一）多级索引Series

1. 低效方法：用Python元组表示索引

import numpy as np
import pandas as pd
# 用一维Series对象表示二维数据

# 1. 笨方法：用Python元组表示索引
index = [('California', 2000), ('California', 2010), ('New York', 2000),
         ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop
# (California, 2000)    33871648
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# (Texas, 2010)         25145561
# dtype: int64

# 通过元组构成的多级索引在Series上取值或切片查询
pop[('California', 2010):('Texas', 2000)]
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# dtype: int64

# 选择2000年的数据（效率低）
pop[[i for i in pop.index if i[1] == 2010]]
# (California, 2010)    37253956
# (New York, 2010)      19378102
# (Texas, 2010)         25145561
# dtype: int64

2. 高效方法：Pandas多级索引

Pandas的MultiIndex类型：

levels属性表示索引的等级，可以将索引作为每个数据点的不同标签
reindex方法将索引重置

# Pandas的MultiIndex类型
# 用元组创建一个多级索引
index = pd.MultiIndex.from_tuples(index)
index
# MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
#            codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

# 重置索引
pop = pop.reindex(index)
pop
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

# 切片查询：可直接用第二个索引获取2010年数据，获取单索引数组
pop[:, 2010]
# California    37253956
# New York      19378102
# Texas         25145561
# dtype: int64

3. 高维数据的多维索引

unstack()方法将一个多集索引的Series转化为普通索引的DataFrame。反之，stack()方法将DataFrame转化为Series。

如果可以用含多级索引的一维Series数据表示二维数据，就可以用Series或DataFrame表示三维甚至更高维度的数据。

多级索引每增加一级，就表示数据增加一维，利用这个特点可以轻松表示任意维度的数据。

pop_df = pop.unstack()
pop_df
#                 2000      2010
# California  33871648  37253956
# New York    18976457  19378102
# Texas       20851820  25145561

pop_df.stack()
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

# 带有MultiIndex的对象增加一列
pop_df = pd.DataFrame({
   'total': pop, 'under18': [
                      9267089, 9284094, 4687374, 4318033, 5906301,

最低0.47元/天解锁文章

TreasureAI

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[Python3] Pandas v1.0 —— (三) 层级索引

文章目录五、层级索引（一）多级索引Series1. 低效方法：用Python元组表示索引2. 高效方法：Pandas多级索引3. 高维数据的多维索引（二）多级索引的创建方法1. 显式地创建多级索引2. 多级索引的等级名称3. 多级列索引（三）多级索引的取值和切片1. Series多级索引2. DataFrame多级索引（四）多级索引行列转换1. 有序的索引和无序的索引2. 索引stack与unst...
复制链接

扫一扫

专栏目录