因为最近看Hive ,Hive 其实就是MapReduce的封装,基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据查询进行查询,统计和分析,这个过程是一个MR过程,我们如何能够通过查看执行sql的过程来查看MR这个过程,从而做到后续的一些优化之类的。
使用EXPLAIN 了解Hive是如何工作,第一个就是需要了解EXPLAIN功能
我们在hive shell 下面输入EXPLAIN可以看到:
explain会把查询语句转化成stage组成的序列,主要由三方面组成:
1:查询的抽象语法树
2:plane中各个stage的依赖情况
3:每个阶段的具体描述:描述具体来说就是显示出对应的操作算子和与之操作的对应的数据,例如查询算子,filter算子,fetch算子等等。下面我来看一个具体的例子:
hive> explain [extended] --加上关键字extended,则显示抽象语法树
> select * from student
> cluster by age;
1.查询的抽象语法树(没用,可以忽略)
2.执行计划计划的不同阶段之间的依赖关系(很重要)
OK
STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 is a root stage
3.每个场景的描述
STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree: //发生在job的 map 处理阶段过程
TableScan //读取表的数据
alias: student //表名为student,若select * from emp e;表有别名则显示别名e
Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
Select Operator
expressions: age (type: int), name (type: string)
outputColumnNames: _col0, _col1
Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
Reduce Output Operator
key expressions: _col0 (type: int)
sort order: +
Map-reduce partition columns: _col0 (type: int)
Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
value expressions: _col0 (type: int), _col1 (type: string)
Reduce Operator Tree: //发生在job的 reduce 处理阶段过程
Extract
Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
File Output Operator
compressed: false
Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
table:
//说明输入格式是TextInputFormat
input format: org.apache.hadoop.mapred.TextInputFormat
//说明输出格式是HiveIgnoreKeyTextOutputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
Stage: Stage-0
Fetch Operator
limit: -1 //--job中没有Limit
Time taken: 0.085 seconds, Fetched: 36 row(s)
总结:
1,每个stage都是一个独立的MR,复杂的hql语句可以产生多个stage,可以通过执行计划的描述,看看具体步骤是什么。 2,执行计划有时预测数据量,不是真实运行,可能不准确