Python数据聚合和分组运算

最新推荐文章于 2024-01-26 14:45:05 发布

m0_59871113

最新推荐文章于 2024-01-26 14:45:05 发布

阅读量107

点赞数

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/m0_59871113/article/details/124825347

版权

import pandas as pd
import numpy as np
 
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
    'key2' : ['one', 'two', 'one', 'two', 'one'],
    'data1' : np.random.randn(5),
    'data2' : np.random.randn(5)})

我们将key1当做我们的分组键值，对data1进行分组，再求每组的均值：

grouped = df['data1'].groupby(df['key1'])

语法很简单，但是这里需要注意grouped的数据类型，它不在是一个数据框，而是一个GroupBy对象。

grouped

实际上，在这一步，我们并没有进行任何计算仅仅是创建用key1分组后创建了一个GroupBy对象，我们后面函数的任何操作都是基于这个对象的。

求均值：

grouped.mean()

刚刚我们只是用了key1进行了分组，我们也可以使用两个分组变量，并且通过unstack方法进行结果重塑：

means = df['data1'].groupby([df['key1'], df['key2']]).mean()

means

means.unstack

以上我们的分组变量都是df内部的Series,实际上只要是和key1等长的数组也可以：

states = np.array(['Ohio', 'California', 'California', 'Ohio', 'Ohio'])
years = np.array([2005, 2005, 2006, 2005, 2006])
df['data1'].groupby([states, years]).mean()

1.通过字典进行分组

people = pd.DataFrame(np.random.randn(5, 5),
     columns=['a', 'b', 'c', 'd', 'e'],
     index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
people.ix[2:3, ['b', 'c']] = np.nan # 添加缺失值
people

2.通过函数进行分组

l=[len(x) for x in people.index]
people.groupby(l).count()

m0_59871113

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫