python中数据聚合与分组运算

在数据分析处理中,对数据进行分组并对各组应用一个函数(无论是聚合还是转换)计算分组统计或生成透视表,是数据分析工作中的重要环节。
python提供了一个灵活高效的groupby功能,它可以使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。在python中主要有两个模块(itertools和pandas)提供了groupby方法。而pandas中的groupby功能尤为强大,可以根据一个或多个键拆分pandas对象、应用组内转换或其他运算,如规格化、线性回归、排名或提取子集等。
下面先来说说itertools中的groupby使用:
itertools.groupby()函数将迭代器中的重复相邻的数聚合在一起。
for key, group in groupby([1, 1, 3, 2, 2, 2, 4, 4, 4, 5]):
print(key, list(group))

(1, [1, 1])
(3, [3])
(2, [2, 2, 2])
(4, [4, 4, 4])
(5, [5])

也可以使用函数对挑选的规则进行个性化设置,只要作用于函数的两个元素返回的值相等,这两个元素就被认为是在一组的。比如下面要忽略大小写挑选出相同字母:
for key, group in groupby(“AaaBBbCccDdd”, lambda x: x.upper()):
print(key, list(group))

(‘A’, [‘A’, ‘a’, ‘a’])
(‘B’, [‘B’, ‘B’, ‘b’])
(‘C’, [‘C’, ‘c’, ‘c’])
(‘D’, [‘D’, ‘d’, ‘d’])
使用一个匿名函数使“A”和“a”都返回为“A”。然后再进行分组。

接下来,采用一个实例讲解groupby的用法。
设计一个场景:要将一个列表中所有连续的数字使用“-”连接,例如:[1,2,3]表示为[1-3]。
下面有一个列表:l = [6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
按照上面的规则对这个l列表进行解析。

将采用值与索引的差进行分组。
l列表为:
[6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
l索引为:
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
两者相减为:
[6, 6, 16, 16, 16, 16, 16, 17, 19, 24, 27]
就可以对他进行分组了。

l = [6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
a = list()
b = []
result = []
function = lambda (i, v): v - i
for k, g in groupby(enumerate(l), function):
g = list(g)
b.append(k)
a.append(g)
for c in range(len(b)):
if [v for i, v in a[c]][0] != [v for i, v in a[c]][-1]:
result.append(“%d-%d” % ([v for i, v in a[c]][0], [v for i, v in a[c]][-1]))
if [v for i, v in a[c]][0] == [v for i, v in a[c]][-1]:
result.append([v for i, v in a[c]][0])
print result

得到结果:[‘6-7’, ‘18-22’, 24, 27, 33, 37]
最后,讲讲pandas中的groupby技术,先来对groupby的技术原理用一张图来说明:
这里写图片描述

(来自于:《利用python做数据分析》)
groupby技术其实就是按照拆分(split)-应用(apply)-合并(combine)的顺序最终得到的。
下面举例说明此过程:
首先,导入一个经典的数据集——Titanic数据集(不用在网上搜索这个数据集,在seaborn包中就有)。

import seaborn as sns
data = sns.load_dataset(“titanic”)
data.head()
这里写图片描述

假设要按sex进行分组,并计算age列的平均值。实现该功能的方式很多,而这里要用的是:访问age,并根据sex调用groupby:
grouped = data.age.groupby(data.sex)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值