[Hive进阶]-- Hive 优化

最新推荐文章于 2024-05-15 09:30:00 发布

往事随风ing

最新推荐文章于 2024-05-15 09:30:00 发布

阅读量3.9k

点赞数 3

分类专栏： Hive（理论+实战）文章标签： Hive

本文链接：https://blog.csdn.net/high2011/article/details/86546971

版权

Hive（理论+实战）专栏收录该内容

37 篇文章 12 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了提高Hive查询性能的各种方法，包括启用压缩、优化连接（如自动Map连接、倾斜连接和桶Map连接）、避免全局排序、使用Tez执行引擎、优化limit操作、并行执行、启用MapReduce严格模式、控制并行Reduce任务、启用向量化和基于成本的优化器。通过这些策略，可以显著提升Hive查询的效率和性能。

摘要由CSDN通过智能技术生成

由于Hive的执行依赖于底层的MapReduce作业，因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。所以我们可以通过一系列的调优方法，来提高大幅度地Hive查询的性能。

1、启用压缩

压缩可以使磁盘上存储的数据量变小，通过降低I/O来提高查询速度。

查出所使用的Hive版本支持的压缩编码方式，下面的set命令列出可用的编解码器(CDH 5.8.x中的Hive)。

 hive> set io.compression.codecs; 
 io.compression.codecs=
 org.apache.hadoop.io.compress.DefaultCodec,
 org.apache.hadoop.io.compres s.GzipCodec,
 org.apache.hadoop.io.compress.BZip2Codec,
 org.apache.hadoop.io.compress.DeflateCodec,
 org.apache.hadoop.io.compress.SnappyCodec,
 org.apache.hadoop.io.compress.Lz4Codec
hive>

一个复杂的Hive查询在提交后，通常被转换为一系列中间阶段的MapReduce作业，Hive引擎将这些作业串联起来完成整个查询。可以将这些中间数据进行压缩。这里所说的中间数据指的是上一个MapReduce作业的输出，这些输出将被下