一、Hive是什么
- 一个sql解析+分布式任务生成和提交的工具

工作示意图
二、Hive能做什么
- 搭建数据仓库
- 数据统计和分析
三、Hive核心工作机制
1、元数据管理
文件和表的映射关系描述,包括表名、字段名、字段分隔符、数据类型、文件格式等
2、sql解析和生成分布式运算程序(比如Hadoop:mapreduce)

- 对 sql做语法分析,得到语法树
- 绑定元数据,得到“Analyzed”逻辑执行计划
- 优化逻辑执行计划(如谓词下推,列裁剪等)
- 逻辑执行计划转成物理执行计划(本质上就是逻辑算子转物理算子,而物理算子就是一些代码模板)
- 代码生成
- 编码打包程序代码,向yarn(如果是yarn集群模式)提交运行
Hive是一个用于大数据处理的工具,它提供了SQL接口进行数据查询和分析。Hive的核心机制包括元数据管理,SQL解析生成分布式任务,如MapReduce。它涉及语法分析、逻辑执行计划优化、代码生成及任务提交到YARN集群执行,主要用于数据仓库的统计和分析。
358

被折叠的 条评论
为什么被折叠?



