【Pandas MultiIndex属性及其设置】

原创已于 2025-03-12 16:23:04 修改 · 714 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

于 2024-01-26 10:44:44 首次发布

数据分析专栏收录该内容

51 篇文章

订阅专栏

本文介绍了如何在PandasDataFrame中使用MultiIndex，包括创建带有多级索引的DataFrame、通过set_index方法设置MultiIndex，以及如何访问特定索引级别数据、进行多级索引切片和聚合操作。

文章目录

什么是MultiIndex？

MultiIndex允许在DataFrame的行或列上创建多级索引。这种多级索引使得可以在更复杂的数据结构中存储和检索数据。通常情况下使用单一的索引来访问DataFrame中的数据，但在某些情况下，数据的层次结构需要更多的索引层级。

如何设置MultiIndex？

1. 直接在创建DataFrame时设置MultiIndex

import pandas as pd

# 创建一个具有MultiIndex的DataFrame
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}
index = pd.MultiIndex.from_tuples([('Group1', 'A'), ('Group1', 'B'), ('Group2', 'A'), ('Group2', 'B')],
                                  names=['Group', 'Variable'])
df = pd.DataFrame(data, index=index)
print(df)

在上面的例子中，我们创建了一个具有MultiIndex的DataFrame，其中’Group’和’Variable’是两个索引级别的名称。

2. 使用`set_index`方法设置MultiIndex

import pandas as pd

# 创建一个普通的DataFrame
data = {'Group': ['Group1', 'Group1', 'Group2', 'Group2'],
        'Variable': ['A', 'B', 'A', 'B'],
        'Value': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 使用set_index方法设置MultiIndex
df = df.set_index(['Group', 'Variable'])
print(df)

在这个例子中，我们首先创建了一个普通的DataFrame，然后使用set_index方法将两列变成MultiIndex。

如何使用MultiIndex？

访问特定索引级别的数据

# 访问Group为'Group1'的所有数据
group1_data = df.loc['Group1']
print(group1_data)

# 访问Variable为'A'的所有数据
variable_A_data = df.loc[:, 'A']
print(variable_A_data)

使用多级索引进行切片

# 使用多级索引进行切片
sliced_data = df.loc['Group1':'Group2', 'A']
print(sliced_data)

使用多级索引进行聚合操作

# 计算每个Group的平均值
group_mean = df.groupby(level='Group').mean()
print(group_mean)