数据聚合与分组

最新推荐文章于 2024-04-04 00:50:38 发布

Sun-sky

最新推荐文章于 2024-04-04 00:50:38 发布

阅读量507

点赞数

分类专栏：数据分析基础

本文链接：https://blog.csdn.net/Sunsky0504/article/details/115403450

版权

数据分析基础专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

前言
一、groupby机制
二、数据表分组聚合

前言

一、groupby机制

介绍完pandas的用法之后，我们再谈谈数据聚合与分组操作，此操作用于Series，DataFrame或其他数据结构（即含有数据的对象），根据自己提供的一个或者多个‘键’，在特定的轴向（axis=0或1）进行分组，分组之后通过使用函数（如sum，mean函数等）得到各个组的一些特征（和，中位数等），然后再将这些结果联合形成一个对象，可以参考下图加深理解；

在这里插入图片描述

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=, observed=False, dropna=True)

groupby	参数介绍
by:mapping, function, label, or list of labels	即为依据什么来分组，可以选择和分组同长度的列，列名称标签，或者是函数
axis{0 or ‘index’, 1 or ‘columns’}, default 0	默认按照纵向轴进行分组
returns：DataFrameGroupBy	返回一个DataFrameGroupBy object 对象

单层索引示例

>>> df = pd.DataFrame({'Animal': ['Falcon', 'Falcon',
                              'Parrot', 'Parrot'],
                   'Max Speed': [380., 370., 24., 26.]})
>>> df
   Animal  Max Speed
0  Falcon      380.0
1  Falcon      370.0
2  Parrot       24.0
3  Parrot       26.0
>>> df.groupby('Animal')
#我们首先按照DataFrame的列名称进行分组，查看类型，的确是DataFrameGroupBy object；
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1045e65b0>
>>> df.groupby('Animal').size()#查看大小
Animal
Falcon    2
Parrot    2
dtype: int64
>>> df.groupby('Animal').var()#查看步长
        Max Speed
Animal           
Falcon       50.0
Parrot        2.0

分层索引示例

>>> arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot','Eagle', 'Eagle'],
          ['Captive', 'Wild', 'Captive', 'Wild','Captive', 'Wild']]
>>> index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))
>>> df = pd.DataFrame({'Max Speed': [390., 350., 30., 20., 260., 300.]},
                   index=index)
>>> df
                Max Speed
Animal Type              
Falcon Captive      390.0
       Wild         350.0
Parrot Captive       30.0
       Wild          20.0
Eagle  Captive      260.0
       Wild         300.0
>>> df.groupby(level=0).size()
Animal
Eagle     2
Falcon    2
Parrot    2
dtype: int64
>>> df.groupby(level=1).size()
Type
Captive    3
Wild       3
dtype: int64

#既然是对象，我们就可以使用python内置函数dir（）查看属性方法；
#列表太长，所以只表示出部分内容
>>> dir(df.groupby('Animal'))
[..., 'median', 'min', 'ndim', 'ngroup', 'ngroups', 'nth', 'nunique', 'ohlc', 'pad', 'pct_change', 'pipe', 'plot', 'prod', 'quantile', 'rank', 'resample', 'rolling', 'sample', 'sem', 'shift', 'size', 'skew', 'std', 'sum', 'tail', 'take', 'transform', 'tshift', 'var']

二、数据表分组聚合

使用内置函数——sum / mean / max / min / count等
使用自定义函数—— agg ( aggregate ) 方法
Apply 函数

Sun-sky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据聚合与分组

文章目录前言一、groupby机制总结前言一、groupby机制介绍完pandas的用法之后，我们再谈谈数据聚合与分组操作，此操作用于Series，DataFrame或其他数据结构（即含有数据的对象），根据自己提供的一个或者多个‘键’，在特定的轴向（axis=0或1）进行分组，分组之后通过使用函数（如sum，mean函数等）得到各个组的一些特征（和，中位数等），然后再将这些结果联合形成一个对象，可以参考下图加深理解；DataFrame.groupby(by=None, axis=0, l.
复制链接

扫一扫