Hive SQL的执行流程分析

Hive SQL的执行流程分析
1)SQL执行非常慢
2)面试

select yyy,聚合函数 from xxx group by yyy;
select a.*,b.* from a join b on a.id = b.id;

如果给你一个join,让你使用MR的功能来描述.
例子1:
select a.id,a.city,a.cate from access a where a.day = "20190414" and a.cate="大奔"

例子2:
select city ,count(1) from access a where day = "20190414" and cate = "大奔"
group by city 

mr count 
1)map:split ==> (word,1_)
2)shuffle:(word,1) partition ==> reduce 
3)reduce:(word ,可迭代的(1,1,....1) ==> (word,sum(可迭代的)) 

例子2:
map:split ==> (city,1)
combiner:local reduce 局部聚合,减少shuffle


    使用场景:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值