Hive总结

最新推荐文章于 2024-01-16 16:57:12 发布

lz_N_one

最新推荐文章于 2024-01-16 16:57:12 发布

阅读量793

点赞数 1

分类专栏：数据仓库文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/lz_n_one/article/details/125888749

版权

本文详细介绍了Hive的内部表和外部表的区别，强调了数据管理和删除操作的不同。此外，讨论了Hive的索引功能及其有限的使用场景。接着，探讨了运维中如何调度Hive任务，并分析了ORC和Parquet列式存储的优点。文章还涵盖了数据建模的星型、雪花和星座模型，并解释了数据仓库分层的原因。对于Hive遇到的数据倾斜问题，提出了多种解决方案。最后，讨论了Hive的优化技巧，如表关联的实现方式和解决小文件过多的方法，以及Hive与其他数据库的异同、元数据存储方式和压缩格式的选择等。

摘要由CSDN通过智能技术生成

1、hive内部表和外部表的区别

未被external修饰的是内部表，被external修饰的为外部表。
区别：

1.内部表数据由Hive自身管理，外部表数据由HDFS管理；
2.内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），
3.外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
4.删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。

2、Hive有索引吗

Hive支持索引（3.0版本之前），但是Hive的索引与关系型数据库中的索引并不相同。并且 Hive索引提供的功能很有限，效率也并不高，因此Hive索引很少使用。

索引适用的场景：

适用于不更新的静态字段。以免总是重建索引数据。每次建立、更新数据后，都要重建索引以构建索引表。

3、运维如何对hive进行调度

将hive的sql定义在脚本当中；
使用azkaban或者oozie进行任务的调度；
监控任务调度页面。

4、ORC、Parquet等列式存储的优点

ORC:ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，文件中的数据尽可能的压缩以降低存储空间的消耗；以二进制方式存储，不可以直接读取；自解析，包含许多元数据，这些元数据都是同构ProtoBuffer进行序列化的；会尽可能合并多个离散的区间尽可能的减少I/O次数；在新版本的ORC中也加入了对Bloom
Filter的支持，它可以进一步提升谓词下推的效率，在Hive 1.2.0版本以后也加入了对此的支持。

Parquet:Parquet支持嵌套的数据模型，类似于Protocol Buffers，每一个数据模型的schema包含多个字段，每一个字段有三个属性：重复次数、数据类型和字段名；Parquet中没有Map、Array这样的复杂数据结构，但是可以通过repeated和group组合来实现；通过Striping/Assembly算法，parquet可以使用较少的存储空间表示复杂的嵌套格式，并且通常Repetition
level和Definition
level都是较小的整数值，可以通过RLE算法对其进行压缩，进一步降低存储空间；Parquet文件以二进制方式存储，不可以直接读取和修改，Parquet文件是自解析的，文件中包括该文件的数据和元数据。

5、数据建模用的哪些模型

星型模型
在这里插入图片描述

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：
a. 维表只和事实表关联，维表之间没有关联；
b. 每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；
c. 以事实表为核心，维表围绕核心呈星形分布。

雪花模型
在这里插入图片描述

雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的，虽然这种模型相比星型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能比星型模型要低。

星座模型
在这里插入图片描述

星座模式是星型模式延伸而来，星型模式是基于一张事实表的，而星座模式是基于多张事实表的，而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模式。

6、为什么要对数据仓库分层

用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据。如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。
通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。

7、使用过Hive解析JSON串吗