pandas 数据分析3:分组与聚合

分组聚合是最常使用的数据操作之一。

分组 - DataFrame.groupby()

分组 steps:

  • Splitting the data into groups based on some criteria
  • Applying a function to each group independently
  • Combining the results into a data structure

这里创建的数据对象如下,甲和乙列下面的数据可以明显的进行分组。

import pandas as pd
import numpy as np


years = pd.date_range("20220101", periods=12, freq="M").year
# years

columns = list("甲乙丙丁戊己庚辛壬癸")

df = pd.DataFrame(
    {
        "甲": ["foo", "bar", "foo", "bar", "foo", "bar"] * 2,
        "乙": ["one", "one", "two", "three", "two", "two"] * 2,
    } |
    {
        col: pd.Series(np.random.randint(1, 100, len(years)), index=years) for col in columns[2:] 
    }
)
# df

完整语法:

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)

  • by 参数可以是:映射、函数、标签、Grouper 对象,或是以上的类型构成的列表,如标签列表。
  • 返回结果是一个 DataFrameGroupBy 对象:
    • 对其进行标签索引还是一个 DataFrameGroupBy 对象。
    • 使用 list 将其列表化,看具体的分组情况,每一组有一个共同的组标签,组数据结构是 DataFrame
  • 这里只是浅入浅出一下,通过一两个例子认识分组的效果,不多介绍更多的参数。
df.groupby("甲")  # <pandas.core.groupby.generic.DataFrameGroupBy object at 0x...>
df.groupby("甲")[["癸", "丁"]]

list(df.groupby("甲")[["癸", "丁"]])
list(df.groupby(["甲", "乙"])[["癸", "丁"]])

一级分组二级分组
在这里插入图片描述在这里插入图片描述

聚合

所谓聚合就是在对数据进行指定分组后,再按需进行的一系列操作(多为计算),如求统计量(最值、平均值……)、转换等

聚合函数与方法通常是实现数据处理的最终目的手段,分组很多情况下也是为更好地聚合。

常用统计量的计算

这里也是简要描述,很多方法都可以传入参数,实现更多功能。

  1. 求总和 - DataFrameGroupBy.sum()
  2. 求平均值 - DataFrameGroupBy.mean()
  3. 求中值(中位数) - DataFrameGroupBy.median()
  4. 求最值 - DataFrameGroupBy.max() && DataFrameGroupBy.min()
  5. 求协方差 - DataFrameGroupBy.cov()
  6. 求相关 - DataFrameGroupBy.corr()
  7. 求每一组的条目数 - DataFrameGroupBy.count()
  8. 求去重后的条目数 - DataFrameGroupBy.nunique()
g1 = df.groupby("甲")[["癸", "丁"]]
g2 = df.groupby(["甲", "乙"])[["癸", "丁"]]

g1.sum()
g1.mean()
g1.median()
g1.max()  # g1.min()

g1.count()
g1.cov()

具体这些统计量计算出什么结果人尽皆知,这里不予展示;下面是一个求去重后条目数的结果,以供更好理解:

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值