详解聚合函数和group by的关系

前言

world:世界表格
continent:大洲名称
name:国家名称
population:人口数量
执行SQL语句的网站:https://igs.sqlzoo.net/wiki/Window_LAG

聚合函数介绍

sum()求和函数
avg()求平均值函数
max()求最大值函数
min()求最小值函数
count()求行数函数

group by介绍

group up + 字段名:规定哪个字段分组聚合
在单独使用使用时,作用为分组去重 结果与distinct一样,但是逻辑并不一样:先对字段值相同的分为一个区,再将同区的拿出来进行分组,对应多少值就分多少组。分组就是将相同的字段进行剔除。简单来说,就是打破了表格的格式生成了一张新的表格。

在这里插入图片描述

例如在上面这张表格就是执行group up后形成的分区结果,将相同的字段值分在了一起。下面的表格即是执行group by分组的结果,基于上面分区的结果,进行了去重的分组。
在这里插入图片描述

解释聚合函数和group by的关系

那么为什么使用group by会形成这样的结果呢?我们可以使用上聚合函数进行分析原因,执行下面一句SQL代码。

select continent,count(name) from world group by continent

结果为
在这里插入图片描述
那么我们试着将group by continent和continent去掉,得到以下结果
在这里插入图片描述
结果执行后查询出来 count(name) 就只是所有 name 这一列的行数的总合,并不能将每个大洲(continent)进行分组统计出来每个大洲所有国家(name)的数量。

这就是聚合函数和group by联合使用的作用,帮助聚合函数找到分组后的表格进行计算,在这一句

select continent,count(name) from world group by continent

SQL语句中是先进行了group by的分组,在进行select continent,最后在进行count(name),基于的就是group by后的分组进行计算。

我们可以将continent的字段名删除,查看结果是否统一,作为印证。
在这里插入图片描述
很明显我们无论有没有将continent进行显示,结果都是一样的。

通过这次测试,我们就可以得出相对应的结论:在group up执行的时候,就已经将表格生成出来了,select只是选择展示和不展示出来而已,对于结果并没有影响。而聚合函数的作用就是在生成出来新的表格内进行计算,舍弃了没有进行分组的表格。

使用group by和聚合函数需要注意的地方

在使用group up子句时,select只能使用聚合函数和group up引用的字段,否则会报错!

尝试执行下列SQL语句:

select continent,count(name),population from world group by continent

在这里插入图片描述

为什么会出现报错呢,因为在这句SQL语句中,group by已经先运行了,所以select不能出现在group by中没有的字段,只能基于在聚合依据的这个表中进行字段匹配。

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
`agg`函数是pandas中的一个聚合函数,用于对数据进行聚合操作。它可以接受一个或多个聚合函数作为参数,对分组后的数据进行聚合操作,并返回聚合后的结果。 `agg`函数的语法如下: ```python DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False).agg(func, *args, **kwargs) ``` 其中,`by`参数用于指定按照哪些列进行分组;`func`参数用于指定聚合函数,可以是预定义的函数,也可以是自定义的函数;`*args`和`**kwargs`参数用于传递聚合函数的参数。 下面是一个简单的例子,使用`agg`函数对数据进行聚合操作: ```python import pandas as pd # 创建数据集 data = { 'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward', 'Frank'], 'gender': ['F', 'M', 'M', 'M', 'M', 'M'], 'age': [25, 32, 18, 47, 23, 38], 'score': [85, 72, 90, 68, 92, 78] } df = pd.DataFrame(data) # 对数据进行分组和聚合 grouped = df.groupby('gender') result = grouped.agg({'age': ['mean', 'std'], 'score': 'max'}) print(result) ``` 输出结果如下: ``` age score mean std max gender F 25.000000 NaN 85 M 32.666667 11.198214 92 ``` 上面的代码中,我们首先创建了一个包含姓名、性别、年龄和分数的数据集。然后,我们使用`groupby`函数对数据按照性别进行分组。最后,我们使用`agg`函数对分组后的数据进行聚合操作,计算每个性别的年龄的均值和标准差,以及分数的最大值。 在`agg`函数的参数中,我们使用字典来指定每个列需要进行的聚合操作。其中,字典的键表示需要聚合的列名,字典的值可以是一个或多个聚合函数。在本例中,我们对年龄列指定了均值和标准差两个聚合函数,对分数列指定了最大值聚合函数

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值