hive 优化

最新推荐文章于 2024-05-01 22:20:02 发布

画画的老顽童

最新推荐文章于 2024-05-01 22:20:02 发布

阅读量101

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/m0_46449152/article/details/114769448

版权

hive 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、count(distinct user_id) 一阶段（1个job）一个reduce 拉取所有map输出的用户，并去重后count
count(*) ( group by user_id) 两阶段执行（2个job）先去重（多个reduce执行）再count() 一个reduce执行
https://blog.csdn.net/oracle8090/article/details/80760233

-- 优化前（只有一个reduce，先去重再count负担比较大）：
select count(distinct id) from tablename;

-- 优化后（启动两个job，一个job负责子查询(可以有多个reduce)，另一个job负责count(1))：
select count(1) from (select distinct id from tablename) tmp;
select count(1) from (select id from tablename group by id) tmp; // 推荐使用这种

select shop,count(distinct user_id) from visit group by shop;
按照shop 分组，reduce个数与 shop相关  ，每个shop 里执行  count(distinct user_id)    
把shop对应的所有的用户信息拿到放到一个reduce中执行
如10个用户，每个用户访问30次， 则每个reduce处理300个记录

select shop,count(*) from
(
	select shop,user_id
	from visit
	group by shop,user_id
) group by shop;
按照 shop和user_id 分组， reduce个数取决于shop,user_id 共同决定
如10个用户，每个用户访问30次， 则每个reduce(shop_user_id hash分组) 处理30个记录

画画的老顽童

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive 优化

1、count(distinct ) group byselect shop,count(distinct user_id) from visit group by shop;按照shop 分组，reduce个数与 shop相关，每个shop 里执行 count(distinct user_id) 把shop对应的所有的用户信息拿到放到一个reduce中执行如10个用户，每个用户访问30次，则每个reduce处理300个记录select shop,count(*) from
复制链接

扫一扫