Hive的运行时架构

最新推荐文章于 2024-02-10 23:16:00 发布

稳哥的哥

最新推荐文章于 2024-02-10 23:16:00 发布

阅读量128

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/shufangreal/article/details/106797531

版权

24 篇文章 1 订阅

订阅专栏

Hive的主要组件有3个

Serrializers/DeSerializers组件
- 这个组件是一个序列化框架，同时伴随着序列化与反序列化的库；其中包含着大量内置的序列化/反序列化器，同时支持用户自定义的序列化反序列化器。
  - read数据的生命周期
    HDFS File -> inputformat(RecordReader) -> <k,v> -> deSerializer -> Row object
  - write数据生命周期
    Row object -> serializer -> <k,v> -> outputformat(RecordWriter) -> HDFS File
MetaStore组件
- 这个组件管理并存储着数据仓库(Hive)中的所有的表、分区的元数据信息,默认是存储在derby数据库中，但是derby数据库在同一时间只允许一个用户访问，为了保证多用户访问元数据，建议将元数据迁移到MySQL等其它数据库。
QueryProcessor组件
- 这个组件一个处理框架，其中包含着自己的基础组件，可以将SQL转化成MR作业，然后交给执行的组件按照一定的依赖顺序去执行这些MR作业。

解析&语义分析器

这个组件负责解析SQL，整个解析转化流程如下

SQL -> AbstractSyntaxTree（语法树）-> 执行计划 -> 最终的Task物理执行图
#这些执行图将会被Driver.java这个类启动并执行

关注