python数据处理包pandas之分组聚合

1. 分组计算

分组计算三步曲:拆分 -> 应用 -> 合并拆分:

  • 根据什么进行分组?
  • 应用:每个分组进行什么样的计算?
  • 合并:把每个分组的计算结果合并起来。
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})
1.1 对Series进行分组
grouped = df['data1'].groupby(df['key1'])
# 多级分组
df['data1'].groupby([df['key1'], df['key2']]).mean()
1.2 对DataFrame进行分组
df.groupby('key1').mean()
# 分组后需要显示的列
means = df.groupby(['key1', 'key2']).mean()['data1']
# 将行索引转换成列
means.unstack()
df.groupby(['key1', 'key2'])['data1'].mean()
1.3 每个分组的元素个数
df.groupby(['key1', 'key2']).size()
1.4 对分组进行迭代
for name, group in df.groupby('key1'):
    print name
    print group
1.5 分组后转化为字典
d = dict(list(df.groupby('key1')))
1.6 按列分组
grouped = df.groupby(df.dtypes, axis=1)
dict(list(grouped))
1.7 通过字典进行分组
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])
df.ix[1, 1:3] = np.NaN
mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 'd': 'orange', 'e': 'blue'}
grouped = df.groupby(mapping, axis=1)
1.8 通过函数分组
  • 当函数作为分组依据时,数据表里的每个索引(可以是行索引,也可以是列索引)都会调用一次函数,函数的返回值作为分组的索引,即相同的返回值分在同一组。
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])

def _dummy_group(idx):
    print idx
    return idx
df.groupby(_dummy_group)
1.9 多级索引数据根据索引级别来分组
columns = pd.MultiIndex.from_arrays([['China', 'USA', 'China', 'USA', 'China'],
                                     ['A', 'A', 'B', 'C', 'B']], names=['country', 'index'])
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=columns)

df.groupby(level='country', axis=1).count()

df.groupby(level='index', axis=1).count()

2. 数据聚合

  • 分组运算,先根据一定规则拆分后的数据,然后对数据进行聚合运算,如前面见到的 mean(), sum() 等就是聚合的例子。聚合时,拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算结果合并起来,生成最终结果。
  • 聚合函数除了内置的 sum(), min(), max(), mean() 等等之外,还可以自定义聚合函数。自定义聚合函数时,使用 agg() 或 aggregate() 函数
2.1 内置聚合函数
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})
df['data1'].groupby(df['key1']).sum()
2.2 自定义聚合函数
def peak_verbose(s):
    print type(s)
    return s.max() - s.min()
    
def peak(s):
    return s.max() - s.min()
    
grouped = df.groupby('key1')
grouped.agg(peak_verbose)
2.3 应用多个聚合函数
grouped['data1', 'data2'].agg(['mean', 'std', peak])
# 给聚合后的函数去名
grouped['data1'].agg([('agerage', 'mean'), ('max-range', peak)])
2.4 给不用的列应用不同的聚合函数
  • 使用 dict 作为参数来实现
d = {'data1': ['mean', peak, 'max', 'min'],
     'data2': 'sum'}
grouped.agg(d)
2.5 重置索引
grouped.agg(d).reset_index()
df.groupby('key1', as_index=False).agg(d)

3. 分组运算和转换

  • groupby 是特殊的分组运算。更一般的分组运算包括 “拆分 - 应用 - 合并”。这里介绍 transform() 和 apply() 来实现分组运算。
3.1 transform
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})
# 给df每行都添加一个以key1分组后的平均值
k1_mean = df.groupby('key1').mean().add_prefix('mean_')
# merge进行合并
pd.merge(df, k1_mean, left_on='key1', right_index=True)
# transform进行简化处理
k1_mean = df.groupby('key1').transform(np.mean).add_prefix('mean_')
3.2 距平化
  • 与平均值的差异值
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])
def demean(s):
    return s - s.mean()
key = ['one', 'one', 'two', 'one', 'two']
demeaned = df.groupby(key).transform(demean)
demeaned.groupby(key).mean()
3.3 apply函数
  • 我们介绍过 DataFrame 的 apply 函数是逐行或逐列来处理数据。GroupBy 的 apply 函数对每个分组进行计算。
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a', 'a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one', 'one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 10),
                  'data2': np.random.randint(1, 10, 10)})

# 根据 column 排序,输出其最大的 n 行数据
def top(df, n=2, column='data1'):
    return df.sort_values(by=column, ascending=False)[:n]

top(df, n=5)
df.groupby('key1').apply(top)
# 传递参数
df.groupby('key1').apply(top, n=3, column='data2')
# 禁用分组键
df.groupby('key1', group_keys=False).apply(top)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值