一文详解:7个 Pandas stack() 和 unstack() 使用技巧

当你在处理包含某种序列(例如时间序列数据)的变量的数据集时,数据通常需要进行重塑。 喜欢本文记得收藏、关注、点赞。

【注】文末加入技术交流群,学习不再孤单

推荐文章

Pandas 提供了各种用于重塑 DataFrame 的内置方法。其中,stack() 和 unstack() 是最流行的 2 种重组列和行的方法:

  • stack():从列到行堆叠
  • unstack():从行到列取消堆叠

stack() 和 unstack() 似乎使用起来相当简单,但你仍然应该知道一些技巧来加快数据分析。

在本文中,我将分享 Pandas 的几个技巧:

  • 单层
  • 多层次:简单案例
  • 多层次:缺失值
  • 多个级别:指定要堆叠的级别
  • 多个级别:删除缺失值
  • unstack: 简单案例
  • unstack:更多用法
1.单层

最简单的 stack()可以应用于具有单层列的 DataFrame。它只是将标签从列堆叠到行并输出一个系列。

df_single_level = pd.DataFrame(
    [['Mostly cloudy', 10], ['Sunny', 12]],
    index=['London', 'Oxford'],
    columns=['Weather', 'Wind']
)
df_single_level.stack()

2.多层次:简单案例

通常,我们会在具有多级列的 DataFrame 上使用 stack()。

让我们创建一个 DataFrame。有多种方法可以创建具有多级列的 DataFrame,最简单的方法之一是创建 MultiIndex 对象 MultiIndex.from_tuples() 并将结果传递给 pd.DataFrame() 中的 columns 参数:

multi_col_1 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Wind', 'm/s')]
)
df_multi_level_1 = pd.DataFrame(
    [[13, 5.5], [19, 8.5]],
    index=['London', 'Oxford'],
    columns=multi_col_1
)

通过调用 stack(),它将获取列级别(mph, m/s) 并将其堆叠到行轴上。

df_multi_level_1.stack()
# Same as 
df_multi_level_1.stack(level=-1)
df_multi_level_1.stack(-1)

在幕后,它根据参数 level 运行操作。 参数 level 默认为 -1 ,它采用最内层并将其从列轴堆叠到行轴上。

3. 多层次:缺失值

在堆叠具有多级列的 DataFrame 时,通常会出现缺失值。让我们创建另一个 DataFrame 示例:

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
df_multi_level_2 = pd.DataFrame(
    [[13, 8], [19, 6]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_2.stack()

与前面的示例 multi_col_1 在第一级中具有相同的值“Wind”不同,multi_col_2 具有 2 个不同的值“Wind”和“Temperature”。 现在,我们得到了缺失值,因为堆叠的 DataFrame 比原始 DataFrame 有更多的值,并且缺失值用 NaN 填充。

4. 多层次:规定要堆叠的层次

stack() 中的第一个参数是 level,它控制堆叠的级别。 让我们创建一个具有 2 个不同级别的 MultiIndex:

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
# Level 0
multi_col_2.get_level_values(0)
# Index(['Wind', 'Temperature'], dtype='object')
# Level 1
multi_col_2.get_level_values(1)
# Index(['mph', '°C'], dtype='object')

我们可以传递一个数字来规定要堆叠的级别。 要规定要堆叠的多个级别,我们可以传递一个列表:

df_multi_level_2.stack(0)
df_multi_level_2.stack([0, 1])
df_multi_level_2.stack([1, 0])

5. 多层次:删除缺失值

默认情况下,调用 stack() 时会删除所有值缺失的行,可以通过将 dropna 设置为 False 来控制此行为:

df_multi_level_3 = pd.DataFrame(
    [[None, 10], [11, 7.0]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_3.stack()
df_multi_level_3.stack(dropna=False)

6. unstack: 简单案例

同样,Pandas unstack() 也支持参数级别,默认为 -1,它将对最内层索引应用操作。

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Temperature'), 
  ('Oxford', 'Wind'),
  ('London', 'Temperature'), 
  ('London', 'Wind')
])
s = pd.Series([1,2,3,4], index=index)

通过在具有 MultiIndex 的 Series 上调用 unstack(),它会将最内层的索引取消堆叠到列上。 要指定要取消堆叠的级别,我们可以传递级别编号:

s.unstack()
# It's equivalent to
s.unstack(level=-1)
# Unstack a specific level
s.unstack(level=0)

7. unstack:更多用法

通常,我们会在更多级别上使用 unstack()。

让我们看一个具有 3 个级别的示例:

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Weather', '01-01-2022'), 
  ('Oxford', 'Temperature', '01-01-2022'), 
  ('Oxford', 'Weather', '02-01-2022'),
  ('Oxford', 'Temperature', '02-01-2022'),
  ('London', 'Weather', '01-01-2022'), 
  ('London', 'Temperature', '01-01-2022'),
  ('London', 'Weather', '02-01-2022'),
  ('London', 'Temperature', '02-01-2022'),
])
s = pd.Series(
  ['Sunny', 10, 'Shower', 7, 'Shower', 5, 'Sunny', 8], 
  index=index
)


通过调用 unstack(),它将最里面的索引解栈到列中。

例如,我们可以使用方法链来运行另一个 unstack() 或传递一个列表

# Method chaining
df.unstack().unstack()
df.unstack().unstack().unstack()
# The equivalent
df.unstack([2,1])
df.unstack([2,1,0])

结论

在本文中,我们介绍了 7 个使用 Pandas 的 stack()和 unstack() 重塑 DataFrame 的用例,该方法本身非常易于使用,并且是在数据预处理中操纵数据的最受欢迎的方法之一。

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

在这里插入图片描述

目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式①、发送如下图片至微信,长按识别,后台回复:加群;
  • 方式②、添加微信号:dkl88191,备注:来自CSDN
  • 方式③、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

长按关注

<think>嗯,用户想了解Pandas里的stackunstack方法的用法区别。我先得回忆一下这两个函数的作用。记得stack是用来把列转换成行,也就是将宽格式数据变成长格式,而unstack则是相反,把行转换成列,让数据变宽。可能需要用例子来解释清楚。 首先,要确认用户的使用场景。用户可能在处理多层索引的数据,或者需要数据透视、重塑结构的时候用到这两个方法。比如,处理时间序列数据或者分组聚合后的结果。用户提供的引用里提到了多层索引数据透视,这stack/unstack的应用场景相关。 接下来,我需要解释stack的具体用法。通常,当DataFrame有列的多层索引时,stack会把某一层的列转成行,生成一个Series或DataFrame。例如,如果列有两层,stack之后,外层列会变成行索引的新层级。这时候数据会更“长”,适合进行分析或绘图。 然后是unstack,它则是把行索引的某一层转成列。比如,如果行有多层索引,unstack可以把其中一层变成列,让数据变得更“宽”,便于展示或进一步处理。比如,将月份作为行索引,unstack后变成列,每个月份的数据作为不同的列。 还要注意它们的参数,比如level,用来指定操作哪一层的索引。默认可能是最内层。另外,处理缺失值的情况,当unstack时如果某些组合不存在数据,会自动填充NaN,这时候可能需要处理缺失值。 用户提供的引用里提到了concatMultiIndex,可能用户对Pandas的其他重塑操作也有兴趣,但当前问题集中在stackunstack。需要确保回答覆盖基本用法、区别,以及实际例子。 另外,用户可能混淆这两个方法,所以需要明确对比它们的差异:stack是列转行,增加行索引层级;unstack是行转列,增加列索引层级。同时,结果的数据结构可能从DataFrame变为Series,特别是在多层索引的情况下。 最后,生成相关问题的时候,可以考虑数据重塑的其他方法,比如pivot、melt,或者多层索引的应用场景,以及如何处理操作后的缺失值。这些问题能帮助用户深入理解相关主题。</think>### Pandasstackunstack方法详解 #### 一、基本定义 1. **stack(堆叠)** 将DataFrame的列索引转换为行索引,生成具有多层索引的Series或DataFrame,公式表达为: $$ \text{宽表} \xrightarrow{\text{stack}} \text{长表} $$ 2. **unstack(解堆叠)** 将行索引的某一层级转换为列索引,公式表达为: $$ \text{长表} \xrightarrow{\text{unstack}} \text{宽表} $$ #### 二、使用示例 假设有以下多层索引DataFrame: ```python import pandas as pd arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]] index = pd.MultiIndex.from_arrays(arrays, names=('letters', 'numbers')) df = pd.DataFrame({'data1': [10, 20, 30, 40], 'data2': [50, 60, 70, 80]}, index=index) ``` 1. **stack操作** 将列标签转换为行索引: ```python stacked = df.stack() ``` 输出结果的行索引变为`(letters, numbers, column)`三层结构,数据从二维表变为一维序列。 2. **unstack操作** 将行索引层级展开为列: ```python unstacked = stacked.unstack(level='numbers') # 展开numbers层级 ``` 输出结果的列会包含`data1``data2`在不同`numbers`值下的组合。 #### 三、核心区别 | 特性 | stack | unstack | |--------------|--------------------------------|--------------------------------| | 数据维度变化 | 减少列维度,增加行维度(长数据) | 减少行维度,增加列维度(宽数据)| | 典型应用场景 | 数据规范化、时间序列分析 | 数据透视、交叉分析 | | 索引操作 | 列索引→行索引 | 行索引→列索引 | #### 四、注意事项 1. 缺失值处理:unstack可能产生NaN值,可配合`fill_value`参数处理 2. 层级选择:通过`level`参数指定操作层级(支持名称或位置编号) 3. 多层索引:与`pd.MultiIndex`结合使用时效果更显著[^3]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值