在Pandas中,SQL的GROUP BY操作是使用类似命名的 groupby()
方法执行的。groupby()
通常是指我们想要将数据集分成组,应用某个函数(通常是聚合),然后将这些组合在一起的过程。
读入测试数据
大部分的例子将利用tips
在pandas测试中发现的数据集。我们将数据读入一个名为tips的DataFrame,并假设我们有一个同名和结构的数据库表。
一个常见的SQL操作将获得整个数据集中每个组的记录数。例如,一个查询让我们知道性别留下的提示的数量:
Pandas等价表达:
请注意,在我们使用的Pandas代码size()
而不是 count()
。这是因为 count()
对每列应用函数,返回每个列中not null的记录数。
或者,我们可以将该count()
方法应用于单个列:
也可以一次应用多个功能。例如,假设我们希望看到每天的小费金额有多少 - agg()
允许将字典传递到分组的DataFrame,指出哪些函数适用于特定的列。
通过将列列表传递给groupby()
方法来完成由多个列组成的分组 。
今日赠言
一个人做事情的时候不仅容易放弃,而且你的成长也是有限的。你需要团队的力量帮助你成长,你需要集体的智慧帮助你进阶。不要害怕和别人沟通,也许就是因为你不经意的哪一句话,帮助你羽化成蝶,人生灿烂如花。
推荐阅读:
机器学习篇
自然语言处理中的Attention Model:是什么及为什么
python学习篇