hive sql 优化

最新推荐文章于 2024-05-11 09:37:40 发布

goingandgoing

最新推荐文章于 2024-05-11 09:37:40 发布

阅读量334

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/u012660667/article/details/71515026

版权

hadoop 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1、COUNT(DISTINCT)优化

原始语句运行时间大概215秒

select dt,
count(distinct case when page='2001'  then uuid end) as cleanUser
from dw_space_page_orc_dt 
where dt>='20170506'

优化之后语句运行时间大概155秒

select sum(t2.uuid_group) cleanUser from 
	(select t1.tag, count(1) uuid_group from 
		(select uuid,  cast(RAND() * 100 AS BIGINT) tag from dw_space_page_orc_dt where page='2001' and dt>'20170506' group by uuid) t1 group by tag) t2;

第一层SELECT：对uuid进行去重，并为去重后的uuid打上整数标记
第二层SELECT：按照标记进行分组，统计每个分组下uuid的个数
第三层SELECT：对所有分组进行求和

上面这个方法最关键的是为每个uuid进行标记，这样就可以对其进行分组，分别计数，最后去和。如果数据量确实很大，也可以增加分组的个数。例如：CAST(RAND() * 1000 AS BIGINT) tag

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

goingandgoing

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive sql 优化

1、COUNT(DISTINCT)优化原始语句运行时间大概215秒select dt,count(distinct case when page='2001' then uuid end) as cleanUserfrom dw_space_page_orc_dt where dt>='20170506'GROUP BY dt优化之后语句运行时间大概155秒select sum(
复制链接

扫一扫