hive中distinct和group by

最新推荐文章于 2023-12-25 17:00:09 发布

大王go巡山

最新推荐文章于 2023-12-25 17:00:09 发布

阅读量1.8k

点赞数 3

分类专栏： hive学习文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29425617/article/details/80934613

版权

hive学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

SELECT COUNT(DISTINCT USER_ID) FROM STU

上述sql会将所有USER_ID都shuffle到一个reduce中，如果数据量很大时，速度会变慢。

SELECT COUNT(*) FROM （SELECT USER_ID FROM STU GROUP BY USER_ID）

上述sql会根据group by 分组的结果产生多个reduce，然后并行执行，数据量很大时速度会变快。

我们也可以设置参数来规定多少个reduce

set mapred.reduce.tasks=100； // 设置reduce个数为100

结论：当数据量不大时推荐使用distinct,数据量大时使用group by

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive中distinct和group by

SELECT COUNT(DISTINCT USER_ID) FROM STU上述sql会将所有USER_ID都shuffle到一个reduce中，如果数据量很大时，速度会变慢。SELECT COUNT(*) FROM （SELECT USER_ID FROM STU GROUP BY USER_ID）上述sql会根据group by 分组的结果产生多个reduce，然后并行执行，数据量很大时速度...
复制链接

扫一扫

专栏目录

大王go巡山 CSDN认证博客专家 CSDN认证企业博客

码龄9年

41: 原创

8万+: 周排名

108万+: 总排名

8万+: 访问

: 等级

1147: 积分

27: 粉丝

49: 获赞

8: 评论

170: 收藏

私信

关注

热门文章

分类专栏

元数据管理 1篇
血缘关系 1篇
大数据 3篇
容器学习 1篇
笔记
kafka 7篇
笔试 9篇
hive学习 16篇
vim学习 2篇
linux学习 2篇
面试 4篇
kafka 8篇
环境配置 2篇
python 3篇
项目开发 3篇

最新评论

jupyterlab支持spark和pyspark（跨集群）
m0_70023670: 如果jupyter要连接远程spark集群，就只需要将livy安装在远程集群，在jupyter所在的机器上安装sparkmagic，并指定config.json中的url为远程spark集群安装livy的机器是吗？
nextline和nextInt连用问题
m0_60957166: 太感谢了
where 1=1和where 1=0
AttackOnRookie: WHERE 1 = 0 学到了
全量表/增量表/快照表
LinkSky-凌空: ？？？？
数据仓库建设
Kaka架构: 自己写的也好，转载也好，请携带全了图片。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。