hive 中group by 后的多个 count / count(distinct) 指标计算执行原理

红烛暗盗梦

已于 2022-09-13 11:03:15 修改

阅读量957

点赞数

分类专栏： plan 文章标签： hive hadoop 数据仓库

于 2022-09-13 10:46:36 首次发布

本文链接：https://blog.csdn.net/laidongxu666/article/details/126828645

版权

plan 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

explain select hour,count(*),count(distinct uid),count(distinct bg) from table where ds='2021-04-09' and hour = '12' group by hour;

一、开启Map端聚合参数设置，set hive.map.aggr=true;

此时，执行计划会多出在map 端的的预聚合操作

二、执行计划，查看日志可以看出，一个指标对应一个reduce job

三、扫描数据次数，只扫描数据 1次。

spark 中的体现，猜测试

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

红烛暗盗梦

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive去重：distinct与group by

张之海的博客

06-02

2524

Hive对数据去重有两种方法：(1) distinct (2) group by 本文介绍distinct、group by在去重时底层的执行逻辑、数据处理原理，并介绍在不同场景下，应采用哪种方法去重。

Hive之count (distinct)剖析与优化

KGC的博客

04-11

3011

市场部小姐姐：我的sql为啥这么慢呀？

参与评论您还未登录，请先登录后发表或查看评论

group by完分组之后count

weixin_44598671的博客

04-04

8010

因为我也是刚参加工作工作上遇到的难题就用空闲时间分享上来了说的不对的地方请大佬指点希望能帮到萌新废话不多说下面开始教程这是分组查询的统计语句 select count(*) from eforces_sale group by goodsname,gname,gid 查出来的是每个列的统计,不是我们想要的在正常工作中用到分页功能中语法是不能用的这...

group by以后如何count?

忆水思寒的博客

08-31

2736

原文：https://www.cnblogs.com/jimleestone/p/sql_001.html 当表数据量很庞大, 需要使用sql的limit功能来分页时, 需要发送两条sql才能实现分页 SELECT * FROM tablename WHERE conditions LIMIT pagestart, pagesize 以及 SELECT COUNT(*) FROM tablename WHERE conditions 其中第二条是在UI上显示总结果数量以及进行分页的操作; 但是,

mysql中对group by分组后的数据进行count()

weixin_42592650的博客

11-21

2万+

在mysql中可以用group by对查询出的数据分组 select id,service,name FROM service GROUP BY name,service 如果要查看每组数据的总数，可以 select count(*) FROM service GROUP BY name,service 当要查询group by后的总数，可以这样 select count(*) f...

大数据Hive之group by、count、over

luo981695830的博客

01-05

2374

group by和count在Hive与mysql用法基本一致，今天说一下group by、count组合用法在hive中的需要注意的地方，以及实现一个功能的sql写法目标：统计表中id和总条数模型:tab(id string) 输出：id、count(*) 需求1：输出表中总记录数 select count(*) from tab; 需求2：输出表中id，总条数 select id,count(*) from tab; 这样计算就会报错解决方式两...

Hive：select count(distinct)优化以及hive.groupby.skewindata

qq_38783098的博客

02-09

3313

问题引入数据分析师小A接到需求，需要统计当日各个省份20岁以下的日活跃用户数（去重统计user_id，即UV）现有一个Hive表存储着用户行为数据 Hive表：user_behaviour_trace_info 列描述 user_id 用户id nickname 昵称 age 年龄 province 省份 url 访问地址 access_time 访问时间 device_id 用户手机设备id 小A很顺其自然的写.

hivesql中count distinct为什么可以用groupby优化

曹健的博客

10-20

716

首先，用我本地的单机版hive建一张测试表，虽然不能模拟大数据量，但是足够说明问题了，准备数据如下： -- count distinct测试 create table count_distinct_test(id int,name string); insert into count_distinct_test values(1,'a'),(2,'a'),(3,'a'),(4,'b'),(5,'b'),(6,'c'),(7,'d'),(8,'e'),(9,'f'),(10,'g'); expla

hive中groupby优化_工作中总结的关于hive的优化方案

weixin_33906021的博客

12-29

613

这些优化全是在公司中遇到瓶颈后的一些解决方案，精华部分，当然大数据时代任何问题的解决方法都不止一种，智者见智slow相关参数能够设置map阶段执行完成在执行ruduce，默认值是0.05，设置成1后就会让map完全拿完数据了再执行reduce阶段，这样不会因为map端数据倾斜了执行map时也在执行reduce两个阶段的槽位都被占着，也就是内存利用率问题set mapreduce.job.reduc...

hive中groupby优化_Hive 查询优化总结

weixin_39606137的博客

12-20

344

一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个mapred程序中。案例：SELEC...

MySQL 分组之后如何统计记录条数 gourp by 之后的 count()

weixin_30383279的博客

10-12

2490

SELECT count(*) FROM 表名 WHERE 条件 // 这样查出来的是总记录条 SELECT count(*) FROM 表名 WHERE 条件 GROUP BY id //这样统计的会是每组的记录条数. 如何获得第二个sql语句的总记录条数? 　　则是，如下：　　　 select count(*) from(SELECT count(*) FR...

mybatis使用group by返回多个值，包含count数据

爱的天空的博客

07-03

3万+

1、使用Navicat查询： select b.data_type,b.field_id,count(1) num from BSINERR b GROUP BY b.field_id,b.data_type; 结果为： 2、mybatis的mappe: <select id="countByFieldId" resultMap="byFiledId"> ...

MySQL--Group by分组与count计数（进阶）

L1542334210的博客

09-27

9万+

MySQL--Group by分组与count计数（进阶）1、Group by语法2、创建表格3、题目代码部分4、文末彩蛋更多关于数据库知识请加关注哟~~。若需联系和想安装MySQL请加博主: QQ:3327908431 &nbs...

hive语句优化-通过groupby实现distinct（数据量特别大的时候，使用distinct去重容易导致数据倾斜）

u011500419的专栏

02-18

2286

hive语句优化-通过groupby实现distinct 同事写了个hive的sql语句，执行效率特别慢，跑了一个多小时程序只是map完了，reduce进行到20%。该Hive语句如下： select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year...

mysql去重后的count_MYSQL用group by去重后，再用count计算条数

weixin_28937805的博客

01-21

1374

我就废话不多说了，大家还是直接看代码吧~create or replace function aa1(a1 integer[],a2 bigint) returns void AS $$declare ii integer;declare num integer; begin II:=2021-01-16 17:49:22条件查询-模糊匹配PostgreSQL和SQL Server的模糊匹配lik...

多列 count(distinct)改写优化

m0_49291452的博客

06-30

1168

gabse

DISTINCT，COUNT（*），GROUP_BY，HAVING的联合使用

斛兵的博客

03-08

1748

一、distinct用于获得表中某一列或多列不重复数据，其既可以作用于单列也可以作用于多列，使用时其必须要放置于查询语句的开头，distinct语句中select显示的字段只能是distinct指定的字段，其他字段是不可能出现的。二、count(*) 函数返回在给定的选择中被选的行数，语法：select count（*） from table 例如：有student_course表如下...

Hive--count(distinct)多字段问题

修行的博客

11-09

1832

count(distinct)多字段问题 select count(distinct(字段a | 字段b)) from 表名;

GROUP BY与COUNT用法详解