Hive优化语句

最新推荐文章于 2024-05-01 22:20:02 发布

lz_N_one

最新推荐文章于 2024-05-01 22:20:02 发布

阅读量418

点赞数 1

分类专栏：数据仓库 Hive基础文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/lz_N_one/article/details/125999776

版权

本文详细介绍了Hive的优化技巧，包括建表设计层面的分区表、分桶表优化和选择合适的文件存储格式，如Parquet和ORC；SQL语法和运行参数层面的列裁剪、谓词下推、合并小文件以及CBO优化；Hive架构层面的本地执行优化、JVM重用和并行执行等，旨在提升大数据查询效率。

摘要由CSDN通过智能技术生成

hive建表设计层面

1.使用分区表优化

分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分
区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量
大大减少，从而提高查询效率。

也就是说：当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为
分区表，该字段即为分区字段。

2.使用分桶表优化

跟分区的概念很相似，都是把数据分成多个不同的类别，区别就是规则不一样！

1、分区：按照字段值来进行：一个分区，就只是包含这个这一个值的所有记录
不是当前分区的数据一定不在当前分区
当前分区也只会包含当前这个分区值的数据

2、分桶：默认规则：Hash散列
一个分桶中会有多个不同的值
如果一个分桶中，包含了某个值，这个值的所有记录，必然都在这个分桶

Hive Bucket，分桶，是指将数据以指定列的值为 key 进行 hash，hash 到指定数目的桶中，这样做的
目的和分区表类似，使得筛选时不用全局遍历所有的数据，只需要遍历所在桶就可以了。这样也可以支
持高效采样。

3.选择合适的文件存储格式

Apache Hive支持 Apache Hadoop 中使用的几种熟悉的文件格式，比如 TextFile、SequenceFile、RCFile、Avro、ORC、ParquetFile等。

存储格式一般需要根据业务进行选择，在我们的实操中，绝大多数表都采用TextFile与Parquet两种存储
格式之一。 TextFile是最简单的存储格式，它是纯文本记录，也是Hive的默认格式。虽然它的磁盘开销
比较大，查询效率也低，但它更多地是作为跳板来使用。RCFile、ORC、Parquet等格式的表都不能由
文件直接导入数据，必须由TextFile来做中转。 Parquet和ORC都是Apache旗下的开源列式存储格式。
列式存储比起传统的行式存储更适合批量OLAP查询，并且也支持更好的压缩和编码。

创建表时，特别是宽表，尽量使用 ORC、ParquetFile 这些列式存储格式，因为列式存储的表，每一
列的数据在物理上是存储在一起的，Hive查询时会只遍历需要列数据，大大减少处理的数据量。

第一种：TextFile

1、存储方式：行存储。默认格式，如果建表时不指定默认为此格式。，
2、每一行都是一条记录，每行都以换行符"\n"结尾。数据不做压缩时，磁盘会开销比较大，数据解析开销也比较大。
3、可结合Gzip、Bzip2等压缩方式一起使用（系统会自动检查，查询时会自动解压）,推荐选用可切分的压缩算法。

第二种：Sequence File

1、一种Hadoop API提供的二进制文件，使用方便、可分割、个压缩的特点。
2、支持三种压缩选择：NONE、RECORD、BLOCK。RECORD压缩率低，一般建议使用BLOCK压缩。

第三种：RC File

1、存储方式：数据按行分块，每块按照列存储。
A、首先，将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。
B、其次，块数据列式存储，有利于数据压缩和快速的列存取。
2、相对来说，RCFile对于提升任务执行性能提升不大，但是能节省一些存储空间。可以使用升级版的ORC格式。

第四种：ORC File

1、存储方式：数据按行分块，每块按照列存储
2、Hive提供的新格式，属于RCFile的升级版，性能有大幅度提升，而且数据可以压缩存储，压缩快，快速列存取。 3、ORC
File会基于列创建索引，当查询的时候会很快。

第五种：Parquet File

1、存储方式：列式存储。
2、Parquet对于大型查询的类型是高效的。对于扫描特定表格中的特定列查询，Parquet特别有用。
Parquet一般使用Snappy、Gzip压缩。默认Snappy。
3、Parquet支持Impala 查询引擎。
4、表的文件存储格式尽量采用Parquet或ORC，不仅降低存储量，还优化了查询，压缩，表关联等性能。

4.选择合适的压缩格式

Hive 语句最终是转化为 MapReduce 程序来执行的，而 MapReduce 的性能瓶颈在与网络IO 和磁盘
IO，要解决性能瓶颈，最主要的是减少数据量，对数据进行压缩是个好方式。压缩虽然是减少了数据
量，但是压缩过程要消耗 CPU，但是在 Hadoop 中，往往性能瓶颈不在于 CPU，CPU 压力并不大，所
以压缩充分利用了比较空闲的 CPU。

map阶段输出数据压缩，在这个阶段，优先选择一个低CPU开销的算法。

set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec
set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;