python数据处理包pandas之分组聚合

最新推荐文章于 2022-09-02 12:20:05 发布

小白逆袭记

最新推荐文章于 2022-09-02 12:20:05 发布

阅读量308

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/Big_Older/article/details/105588416

版权

1. 分组计算

分组计算三步曲：拆分 -> 应用 -> 合并拆分：

根据什么进行分组？
应用：每个分组进行什么样的计算？
合并：把每个分组的计算结果合并起来。

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})

1.1 对Series进行分组

grouped = df['data1'].groupby(df['key1'])
# 多级分组
df['data1'].groupby([df['key1'], df['key2']]).mean()

1.2 对DataFrame进行分组

df.groupby('key1').mean()
# 分组后需要显示的列
means = df.groupby(['key1', 'key2']).mean()['data1']
# 将行索引转换成列
means.unstack()
df.groupby(['key1', 'key2'])['data1'].mean()

1.3 每个分组的元素个数

df.groupby(['key1', 'key2']).size()

1.4 对分组进行迭代

for name, group in df.groupby('key1'):
    print name
    print group

1.5 分组后转化为字典

d = dict(list(df.groupby('key1')))

1.6 按列分组

grouped = df.groupby(df.dtypes, axis=1)
dict(list(grouped))

1.7 通过字典进行分组

df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])
df.ix[1, 1:3] = np.NaN
mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 'd': 'orange', 'e': 'blue'}
grouped = df.groupby(mapping, axis=1)

1.8 通过函数分组

当函数作为分组依据时，数据表里的每个索引（可以是行索引，也可以是列索引）都会调用一次函数，函数的返回值作为分组的索引，即相同的返回值分在同一组。

df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])

def _dummy_group(idx):
    print idx
    return idx
df.groupby(_dummy_group)

1.9 多级索引数据根据索引级别来分组

columns = pd.MultiIndex.from_arrays([['China', 'USA', 'China', 'USA', 'China'],
                                     ['A', 'A', 'B', 'C', 'B']], names=['country', 'index'])
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=columns)

df.groupby(level='country', axis=1).count()

df.groupby(level='index', axis=1).count()

2. 数据聚合

分组运算，先根据一定规则拆分后的数据，然后对数据进行聚合运算，如前面见到的 mean(), sum() 等就是聚合的例子。聚合时，拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算结果合并起来，生成最终结果。
聚合函数除了内置的 sum(), min(), max(), mean() 等等之外，还可以自定义聚合函数。自定义聚合函数时，使用 agg() 或 aggregate() 函数

2.1 内置聚合函数

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})
df['data1'].groupby(df['key1']).sum()

2.2 自定义聚合函数

def peak_verbose(s):
    print type(s)
    return s.max() - s.min()
    
def peak(s):
    return s.max() - s.min()
    
grouped = df.groupby('key1')
grouped.agg(peak_verbose)

2.3 应用多个聚合函数

grouped['data1', 'data2'].agg(['mean', 'std', peak])
# 给聚合后的函数去名
grouped['data1'].agg([('agerage', 'mean'), ('max-range', peak)])

2.4 给不用的列应用不同的聚合函数

使用 dict 作为参数来实现

d = {'data1': ['mean', peak, 'max', 'min'],
     'data2': 'sum'}
grouped.agg(d)

2.5 重置索引

grouped.agg(d).reset_index()
df.groupby('key1', as_index=False).agg(d)

3. 分组运算和转换

groupby 是特殊的分组运算。更一般的分组运算包括 “拆分 - 应用 - 合并”。这里介绍 transform() 和 apply() 来实现分组运算。

3.1 transform

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})

# 给df每行都添加一个以key1分组后的平均值
k1_mean = df.groupby('key1').mean().add_prefix('mean_')
# merge进行合并
pd.merge(df, k1_mean, left_on='key1', right_index=True)
# transform进行简化处理
k1_mean = df.groupby('key1').transform(np.mean).add_prefix('mean_')

3.2 距平化

与平均值的差异值

df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])
def demean(s):
    return s - s.mean()
key = ['one', 'one', 'two', 'one', 'two']
demeaned = df.groupby(key).transform(demean)
demeaned.groupby(key).mean()

3.3 apply函数

我们介绍过 DataFrame 的 apply 函数是逐行或逐列来处理数据。GroupBy 的 apply 函数对每个分组进行计算。

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a', 'a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one', 'one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 10),
                  'data2': np.random.randint(1, 10, 10)})

# 根据 column 排序，输出其最大的 n 行数据
def top(df, n=2, column='data1'):
    return df.sort_values(by=column, ascending=False)[:n]

top(df, n=5)
df.groupby('key1').apply(top)
# 传递参数
df.groupby('key1').apply(top, n=3, column='data2')
# 禁用分组键
df.groupby('key1', group_keys=False).apply(top)