数据库中Explain 执行过程的查看

最新推荐文章于 2024-05-23 14:27:31 发布

Jameslvt

最新推荐文章于 2024-05-23 14:27:31 发布

阅读量888

点赞数

分类专栏：大数据 hive 文章标签： explain hive 优化

本文链接：https://blog.csdn.net/Jameslvt/article/details/82460700

版权

大数据同时被 2 个专栏收录

35 篇文章 2 订阅

订阅专栏

hive

2 篇文章 0 订阅

订阅专栏

因为最近看Hive ，Hive 其实就是MapReduce的封装，基于一个统一的查询分析层，通过SQL语句的方式对HDFS上的数据查询进行查询，统计和分析，这个过程是一个MR过程，我们如何能够通过查看执行sql的过程来查看MR这个过程，从而做到后续的一些优化之类的。

使用EXPLAIN 了解Hive是如何工作，第一个就是需要了解EXPLAIN功能

我们在hive shell 下面输入EXPLAIN可以看到：

explain会把查询语句转化成stage组成的序列，主要由三方面组成：

1：查询的抽象语法树

2：plane中各个stage的依赖情况

3：每个阶段的具体描述：描述具体来说就是显示出对应的操作算子和与之操作的对应的数据，例如查询算子，filter算子，fetch算子等等。下面我来看一个具体的例子：

hive> explain [extended] --加上关键字extended,则显示抽象语法树
    > select * from student                
    > cluster by age;

1.查询的抽象语法树(没用,可以忽略)

2.执行计划计划的不同阶段之间的依赖关系(很重要)

OK
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 is a root stage

3.每个场景的描述

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:        //发生在job的 map 处理阶段过程
          TableScan　　　　　　　 //读取表的数据
            alias: student      //表名为student,若select * from emp e;表有别名则显示别名e
            Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
            Select Operator
              expressions: age (type: int), name (type: string)
              outputColumnNames: _col0, _col1
              Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
              Reduce Output Operator
                key expressions: _col0 (type: int)
                sort order: +
                Map-reduce partition columns: _col0 (type: int)
                Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
                value expressions: _col0 (type: int), _col1 (type: string)
      Reduce Operator Tree:      //发生在job的 reduce 处理阶段过程
        Extract
          Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 0 Data size: 74 Basic stats: PARTIAL Column stats: NONE
            table:
                                //说明输入格式是TextInputFormat
                input format: org.apache.hadoop.mapred.TextInputFormat
                                //说明输出格式是HiveIgnoreKeyTextOutputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1                    //--job中没有Limit 

Time taken: 0.085 seconds, Fetched: 36 row(s)

总结：

1，每个stage都是一个独立的MR，复杂的hql语句可以产生多个stage，可以通过执行计划的描述，看看具体步骤是什么。 2，执行计划有时预测数据量，不是真实运行，可能不准确

Jameslvt

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据库中Explain 执行过程的查看

因为最近看Hive ，Hive 其实就是MapReduce的封装，基于一个统一的查询分析层，通过SQL语句的方式对HDFS上的数据查询进行查询，统计和分析，这个过程是一个MR过程，我们如何能够通过查看执行sql的过程来查看MR这个过程，从而做到后续的一些优化之类的。使用EXPLAIN 了解Hive是如何工作，第一个就是需要了解EXPLAIN功能我们在hive shell 下面输入EXPL...
复制链接

扫一扫