文章目录
前言
数据分组和数据透视表是常用的数据汇总工具,它可以根据一个或多个制定的维度对数据进行聚合和重组。
一、数据分组
什么是数据分组:
数据分组就是根据一个或多个键(可以是函数、数组或dataframe列名)将数据分为若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果进行合并,被用作汇总计算的函数被称为聚合函数。
—https://www.jianshu.com/p/2be7ae8dc022
1.1 数据分组格式
DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
by :需要分组的列数据,可以为单个的列,若为多列直接为list列表
axis : 维度
1.2 基础实例
df # 实例数据
Out[86]:
key data1 data2
0 A 0 5
1 B 1 0
2 C 2 3
3 A 3 3
4 B 4 7
5 C 5 9
df.groupby(by='key')
Out[87]: <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001A7E1939E08>
df.groupby(by='key').size() # 分组后数据的数量
Out[88]:
key
A 2
B 2
C 2
dtype: int64
# 除了sum() ,其他计算方式同样适用
df.groupby(by='key').sum