目录
hive on spark 和 spark on hive 区别
同一个SQL 的不同执行表现
首先,我们看一个很简单的SQL
select name,count(1) from student group by name;
表中的数据为
name |
scores |
we2 |
12 |
ss2 |
13 |
ss3 |
15 |
ww3 |
12 |
ww4 |
17 |
接下来,我们通过mr、hive on spark 和 spark on hive 这三种执行方式结合他们的执行计划来进行分析。
使用mr查询
当我们在hive中使用mr查询的时候,会发生如图1(mr 执行结果图)的过程:
- 表明我们使用的查询引擎
- 提交生成运行的job,这个job 提交到的是yarn
- 是这个job中stage 运行mr 执行的过程
图1 mr 执行结果图
然后,我们看一下它的执行计划图2:
图2 mr执行计划图