hive优化-文件存储格式和压缩方法

最新推荐文章于 2023-02-16 09:40:57 发布

MrZhangBaby

最新推荐文章于 2023-02-16 09:40:57 发布

阅读量3.5k

点赞数 1

分类专栏：大数据 Hive 文章标签： Hive hive优化 hive存储方式 Hive压缩

本文链接：https://blog.csdn.net/MrZhangBaby/article/details/94163834

版权

hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。

主要分为以下几块：

第一：数据的压缩与存储格式

对分析的数据选择合适的存储格式与压缩方式能提高hive的分析效率：

1）压缩方式

压缩可以节约磁盘的空间，基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性能量(减小载入内存的数据量)，但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。几种压缩算法：

Hadoop编码/解码器方式，如下表所示

è¿éåå¾çæè¿°

2）hive中压缩设置的方法

1. Hive中间数据压缩

hive.exec.compress.intermediate：默认该值为false，设置为true为激活中间数据压缩功能。HiveQL语句最终会被编译成Hadoop的Mapreduce job，开启Hive的中间数据压缩功能，就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段，优先选择一个低CPU开销的算法。
mapred.map.output.compression.codec：该参数是具体的压缩算法的配置参数，SnappyCodec比较适合在这种场景中编解码器，该算法会带来很好的压缩性能和较低的CPU开销。设置如下：

set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec
set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

2. Hive最终数据压缩

hive.exec.compress.output：用户可以对最终生成的Hive表的数据通常也需要压缩。该参数控制这一功能的激活与禁用，设置为true来声明将结果文件进行压缩。
mapred.output.compression.codec：将hive.exec.compress.output参数设置成true后，然后选择一个合适的编解码器，如选择SnappyCodec。设置如下：

set hive.exec.compress.output=true 
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

3）压缩模式说明

1. 压缩模式评价

压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好。
压缩时间：越快越好。
已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化。

2. 压缩模式对比

BZip2有最高的压缩比但也会带来更高的CPU开

最低0.47元/天解锁文章

MrZhangBaby

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
2
评论
hive优化-文件存储格式和压缩方法

hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。主要分为以下几块：第一：数据的压缩与存储格式对分析的数据选择合适的存储格...
复制链接

扫一扫