对group by语句产生分组结果进行条件过滤方式:
1 group by + having
hive> select year, avg(price) from stocks where exchange='nasddaq' group by year having avg(price)>50;
2 group by + 嵌套子查询
hive> select s2.year. s2.avg from
(select year as year , avg(price) as avg from stocks where exchange='nasddaq' group by year) s2
where s2.avg > 50;
3 group by 介绍:
a) select后要查询的列中,如果列没有使用聚合函数,则对应的列必须出现在 group by后
b) 基于上一条,select后的列经常要和聚合函数搭配使用
eg: select A,count(B) as 数量 from table group by A
错误写法: select A,B from table group by A 原因就是列B没有使用聚合函数下也没有出现在group by后。
4 having 和 where的区别:
where: 用于分组之前对数据进行过滤,这样过滤后的数据在进行分组,条件中不能含有聚合函数,where是map阶段的过滤数据条件
having: 分组之后来过滤数据,条件中经常包含聚合函数,是reduce阶段过滤数据条件
通常 group by和having是必然绑定出现的,为分组过滤做筛选的,
而 where是将所有未分组数据进行行过滤
而 having后的筛选条件一般都是 select后面出现的聚合函数或者列,如下, having的筛选就是前面select中出现的聚合函数。
SELECT A, COUNT(B) FROM stu GROUP BY A HAVING COUNT(B)>2