hive（1）

最新推荐文章于 2022-05-17 16:53:21 发布

zrp木青

最新推荐文章于 2022-05-17 16:53:21 发布

阅读量64

点赞数

分类专栏： HCIA-BD

本文链接：https://blog.csdn.net/qq_40693443/article/details/119825758

版权

HCIA-BD 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Apache Hive数据仓库软件方便了使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供命令行工具和JDBC驱动程序将用户连接到Hive。
Hive产生的原因：非java编程者通过SQL语句对hdfs的数据做mapreduce操作。

对比项 Hive 关系型数据库
查询语音 HQL SQL
数据存储 HDFS Local FS or RawDevice
执行器 MapReducer Executor
数据insert 支持批量导入和单条插入支持批量导入和单条插入
数据Update和delete 支持追加，不支持删除行级别更新和删除
数据规模大小
执行延迟高低
分区支持支持
索引 v0.8后支持支持
数据加载模式读时模式（快）写时模式（慢）
扩展性高低
应用场景海量数据查询实时查询
1.2 Hive架构

• Hive的架构
– （1）用户接口主要有三个：CLI，JDBC/ODBC和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。
– （2）Hive将元数据存储在数据库中，如mysql、derby（hive自带的内存数据库）。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
– （3）解释器（SQL Parser）、编译器（Compiler）、优化器（Optimizer）完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有执行器（Executor）调用MapReduce执行。
– （4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）。

– select id,name from psn；

• Hive的架构
– 编译器将一个Hive SQL转换操作符
– 操作符是Hive的最小的处理单元
– 每个操作符代表HDFS的一个操作或者一道MapReduce作业
• Operator（操作符）
– Operator都是hive定义的一个处理过程
– Operator都定义有:
– protected List <Operator<? extends Serializable >> childOperators;
– protected List <Operator<? extends Serializable >> parentOperators;
– protected boolean done; // 初始化值为false

查询操作表扫描操作限制输出文件输出操作。

ANTLR词法语法分析工具解析hql

zrp木青

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive（1）

Apache Hive数据仓库软件方便了使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供命令行工具和JDBC驱动程序将用户连接到Hive。Hive产生的原因：非java编程者通过SQL语句对hdfs的数据做mapreduce操作。对比项 Hive 关系型数据库查询语音 HQL SQL数据存储 HDFS Local FS or RawDevice执行器 MapReducer Executor数据insert 支持批量导入和单条插入支持批量导入和单
复制链接

扫一扫