pandas 数据分析3：分组与聚合

个人意志想

已于 2023-08-23 11:02:22 修改

阅读量110

点赞数

分类专栏： # Python 数据分析文章标签： python 数据分析 pandas 笔记学习

于 2023-08-18 17:03:16 首次发布

本文链接：https://blog.csdn.net/wander_alice/article/details/132361561

版权

Python 数据分析专栏收录该内容

7 篇文章 0 订阅

订阅专栏

pandas分组与聚合

分组聚合是最常使用的数据操作之一。

分组 - DataFrame.groupby()

分组 steps：

Splitting the data into groups based on some criteria
Applying a function to each group independently
Combining the results into a data structure

这里创建的数据对象如下，甲和乙列下面的数据可以明显的进行分组。

import pandas as pd
import numpy as np


years = pd.date_range("20220101", periods=12, freq="M").year
# years

columns = list("甲乙丙丁戊己庚辛壬癸")

df = pd.DataFrame(
    {
        "甲": ["foo", "bar", "foo", "bar", "foo", "bar"] * 2,
        "乙": ["one", "one", "two", "three", "two", "two"] * 2,
    } |
    {
        col: pd.Series(np.random.randint(1, 100, len(years)), index=years) for col in columns[2:] 
    }
)
# df

完整语法：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)

by 参数可以是：映射、函数、标签、Grouper 对象，或是以上的类型构成的列表，如标签列表。
返回结果是一个 DataFrameGroupBy 对象：
- 对其进行标签索引还是一个 DataFrameGroupBy 对象。
- 使用 list 将其列表化，看具体的分组情况，每一组有一个共同的组标签，组数据结构是 DataFrame。
这里只是浅入浅出一下，通过一两个例子认识分组的效果，不多介绍更多的参数。

df.groupby("甲")  # <pandas.core.groupby.generic.DataFrameGroupBy object at 0x...>
df.groupby("甲")[["癸", "丁"]]

list(df.groupby("甲")[["癸", "丁"]])
list(df.groupby(["甲", "乙"])[["癸", "丁"]])

一级分组	二级分组

聚合

所谓聚合就是在对数据进行指定分组后，再按需进行的一系列操作（多为计算），如求统计量（最值、平均值……）、转换等。

聚合函数与方法通常是实现数据处理的最终目的手段，分组很多情况下也是为更好地聚合。

常用统计量的计算

这里也是简要描述，很多方法都可以传入参数，实现更多功能。

求总和 - DataFrameGroupBy.sum()
求平均值 - DataFrameGroupBy.mean()
求中值(中位数) - DataFrameGroupBy.median()
求最值 - DataFrameGroupBy.max() && DataFrameGroupBy.min()
求协方差 - DataFrameGroupBy.cov()
求相关 - DataFrameGroupBy.corr()
求每一组的条目数 - DataFrameGroupBy.count()
求去重后的条目数 - DataFrameGroupBy.nunique()

g1 = df.groupby("甲")[["癸", "丁"]]
g2 = df.groupby(["甲", "乙"])[["癸", "丁"]]

g1.sum()
g1.mean()
g1.median()
g1.max()  # g1.min()

g1.count()
g1.cov()

具体这些统计量计算出什么结果人尽皆知，这里不予展示；下面是一个求去重后条目数的结果，以供更好理解：

在这里插入图片描述

个人意志想

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
pandas 数据分析3：分组与聚合

分组聚合是最常使用的数据操作之一。下面简要介绍分组原理和常用的计算统计量的聚合方法。
复制链接

扫一扫

专栏目录

pandas 数据分析3：分组与聚合

pandas分组与聚合

分组 - DataFrame.groupby()

聚合

常用统计量的计算

“相关推荐”对你有帮助么？