Hive架构优点及使用场景

最新推荐文章于 2024-01-19 09:33:49 发布

weixin_40581980

最新推荐文章于 2024-01-19 09:33:49 发布

阅读量3.6k

点赞数 1

摘要：先阅读初识hive Hive在大数据生态环境中的位置 Hive架构图 client 三种访问方式 1、CLI(hive shell)、command line interface（命令行接口） 2、JDBC/ODBC(ja.

client 三种访问方式

1、CLI(hive shell)、command line interface（命令行接口）

2、JDBC/ODBC(java访问hive)，

3、WEBUI(浏览器访问hive)
Meta store 元数据存储

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列、分区字段、表的类型（是否是外部表）、表的数据所在的目录等；

默认存储在自带的derby数据库中，推荐使用采用 MySQL存储Metastore；
Driver

包含：解析器、编译器、优化器、执行器；

1、解析器：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；

2、编译器：将AST编译生成逻辑执行计划；优化器：对逻辑执行计划进行优化；

3、执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就

是MR/TEZ/Spark；
举例 select substring(ip,0,4) ip_prex from bg_log ;

执行顺序：首先在metastore查询-->sql解析-->查询优化--->物理计划-->执行MapReduce

关注