2.3.8 hadoop体系之离线计算-Hive数据仓库-Hive常见问题总结

最新推荐文章于 2023-05-06 11:19:21 发布

敲代码的乔帮主

最新推荐文章于 2023-05-06 11:19:21 发布

阅读量538

点赞数

分类专栏：大数据学习之路

本文链接：https://blog.csdn.net/Suyebiubiu/article/details/110878248

版权

大数据学习之路专栏收录该内容

181 篇文章 20 订阅

订阅专栏

1. Hive架构原理

command-line shell & thrift/jdbc

Apache HBase™是Hadoop数据库，提供分布式、可扩展的大数据存储

4. Hive的数据模型

5. Hive支持的文件格式和压缩格式及各自特点

8. Hive视图如何创建、特点及应用场景

11. 简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景

自定义UDF案例：

12. Hive设置SQL参数的方式

（1）shell脚本方式

（2）hivevar形式(以文件方式执行SQL)

（3）hiveconf形式

13. Hive动态分区以及分桶区别

1. Hive架构原理

command-line shell & thrift/jdbc

可以用 command-line shell 和 thrift／jdbc 两种方式来操作数据：

command-line shell：通过 hive 命令行的的方式来操作数据；
thrift／jdbc：通过 thrift 协议按照标准的 JDBC 的方式操作数据。

Metastore

在 Hive 中，表名、表结构、字段名、字段类型、表的分隔符等统一被称为元数据。所有的元数据默认存储在 Hive 内置的 derby 数据库中，但由于 derby 只能有一个实例，也就是说不能有多个命令行客户端同时访问，所以在实际生产环境中，通常使用 MySQL 代替 derby。

Hive 进行的是统一的元数据管理，就是说你在 Hive 上创建了一张表，然后在 presto／impala／sparksql 中都是可以直接使用的，它们会从 Metastore 中获取统一的元数据信息，同样的你在 presto／impala／sparksql 中创建一张表，在 Hive 中也可以直接使用。

HQL的执行流程

Hive 在执行一条 HQL 的时候，会经过以下步骤：

语法解析：Antlr 定义 SQL 的语法规则，完成 SQL 词法，语法解析，将 SQL 转化为抽象语法树 AST Tree；
语义解析：遍历 AST Tree，抽象出查询的基本组成单元 QueryBlock；
生成逻辑执行计划：遍历 QueryBlock，翻译为执行操作树 OperatorTree；
优化逻辑执行计划：逻辑层优化器进行 OperatorTree 变换，合并不必要的 ReduceSinkOperator，减少 shuffle 数据量；
生成物理执行计划：遍历 OperatorTree，翻译为 MapReduce 任务；
优化物理执行计划：物理层优化器进行 MapReduce 任务的变换，生成最终的执行计划。

2. 数据仓库与传统数据库比较

3. Hive与HBase的区别

Apache Hive™是数仓管理工具

通过构建元数据（MySQL）关联到HDFS上的数据
通过数据库、表(分区表、分桶表、倾斜表)管理数据
查询统计都是基于MapReduce引擎（默认）的
支持行式、列式存储文件

Apache HBase™是Hadoop数据库，提供分布式、可扩展的大数据存储

主要负责数据的实时存储和查询
通过命名空间、表、行键、列族、列限定符、时间戳来组织数据
支持数据的更新操作
存储key/value形式的数据，并且以二进制字节数组方式将数据存储到HDFS
通过Get和Scan(生产环境下一定记得带上过滤条件)命令查询数据，实现毫秒级响应
依赖于Zookeeper进行构建，用于保存HBase元数据信息、选举Master

4. Hive的数据模型

Hive的数据模型主要有：Database、Table(Partition Table、Bucket Table)

Database：组织管理一系列的表，其表现形式为HDFS的目录
Table：Hive中表的表现形式也为HDFS的目录，表信息包含列、HDFS存储位置等，表类型：内部表、外部表、临时表、视图表。

5. Hive支持的文件格式和压缩格式及各自特点

Hive支持行式存储和列式存储

行式存储：在一块存储区域内，数据是以行为单位组织数据的。
列式存储：在一块存储区域内，数据是以列为单位组织数据的。

优缺点

行式存储：全列查询，尤其是针对应用型系统，不支持压缩、并且不支持列裁剪，不利于数据分析。文件格式：TextFile、SequenceFile。
列式存储：支持列裁剪、减少数据查询范围，支持数据压缩，节省空间，一般应用于分析型系统。文件格式：ORC、PARQUET、RCFILE。

压缩格式

orc：支持NONE、ZLIB、 SNAPPY压缩，默认为ZLIB压缩方式
parquet：支持LZO、SNAPPY压缩，默认为SNAPPY压缩方式

# 设置文件压缩方式
tblproperties("文件类型.compress" ="压缩方式")
# 案例
create table orc_table_snappy(`loginid` string, `userid` string, `username` string, `rolename` string,`loginip` string,`loginsrc` string,`logintime` string) stored as orc tblproperties("orc.compress" ="SNAPPY");

6. Hive当中四个By

Order By：全局排序，只有一个Reducer。
Sort By：分区内有序，在多个MapReduce情况下，仅保证每个MapReduce输出数据有序，不保证全局有序。
Distribute By：根据指定列进行分区(类似 MR 中Partition)，结合 Sort By 进行排序，必须写在Sort By 之前。
Cluster By：集群排序，当Distribute by 和 Sorts by 字段相同时，可以使用 Cluster by 方式，但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

在生产环境中Order By 基本不用，容易导致OOM。
在生产环境中Distribute By + Sort By用的多。