HiveSQL的编译过程

最新推荐文章于 2021-10-08 16:59:54 发布

直截了当

最新推荐文章于 2021-10-08 16:59:54 发布

阅读量365

点赞数 1

文章标签： hive mapreduce

MR实现HiveSQL的原理：

1.join

select u.name, o.orderid from order o join user u on o.uid = u.uid;

这是一条简单的关联sql查询，底层执行引擎是怎样实现的？
这里写图片描述
两张边作为输入，join的条件作为key，然后为其他值打上tag标记，经过shuffle，将key相同的数据发送到同一个Reduce上执行。

2.group by

select rank, isonline, count(*) from city group by rank, isonline;

这里写图片描述

在Map端将GroupBy的字段组合为key值（图中是rank和isonline），经过shuffle阶段，将相同的key发送到一个Reduce执行。

3.Distinct

select dealid, count(distinct uid) num from order group by dealid;

这里写图片描述
当只有一个distinct字段时，如果不考虑Map阶段的Hash GroupBy，只需要将GroupBy字段和Distinct字段组合为map输出key，利用mapreduce的排序，同时将GroupBy字段作为reduce的key，在reduce阶段保存LastKey即可完成去重。

转自：https://tech.meituan.com/hive-sql-to-mapreduce.html

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HiveSQL的编译过程

HiveSQL
复制链接

扫一扫

直截了当 CSDN认证博客专家 CSDN认证企业博客

码龄8年

0: 原创

188万+: 周排名

197万+: 总排名

364: 访问

: 等级

6: 积分

0: 粉丝

1: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

HiveSQL的编译过程 365

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。