HIVE的压缩和存储格式

本文详细介绍了Hive的压缩和存储格式,包括不同阶段的压缩设置,如MAP和REDUCE输出阶段,并探讨了Hadoop支持的编解码类型。重点讲解了列式存储的ORC和Parquet格式,以及Hive的压缩格式如GZIP、LZO和SNAPPY,特别是SNAPPY在ORC文件中的应用。此外,还分享了如何在Hive中配置压缩选项和结合使用存储与压缩格式的案例。
摘要由CSDN通过智能技术生成

目录

2)压缩性能比较

3)开启MAP输出阶段压缩

4)开启REDUCE输出阶段压缩,比map端压缩事儿多

四.查看HADOOP支持哪些编解码

 五、hive文件压缩在两处设置

六、存储格式和压缩格式可结合使用


在生产环境中,常用的HIVE存储格式:列式存储的orc和parquet

HIVE压缩格式:冷数据-----gzip压缩(压缩比高,压缩解压缩速度高,不可切割);

                          非冷数据------lzo(可切割)和snappy(不可切割)

案例:student表存储方式是ORC,压缩方式SNAPPY

create table student (empno int,empname string)

stored as orc

tblproperties("orc.compress"="SNAPPY")

一.HIVE存储格式

存储格式 压缩比
textfile 文本 行存储 第4
sequence 二进制 行存储 第3
orc(常用,默认zlib压缩 二进制 行列存储 第1
parquet(常用 二进制 行列存储 第2

二、HIVE的压缩方式

1)压缩方法比较 

压缩格式 工具 算法 文件扩展名 是否可切分
deflate deflate .deflate
gzip gzip deflate .gz
bzip2 bzip2 bzip2 .bz2
lzo lzo lzo .lzo
Hive是一种用于在大数据环境中进行查询和分析的开源数据仓库解决方案。在Hive中,选择合适的存储格式对于查询性能和数据存储优化非常重要。 Hive支持多种存储格式,包括文本格式、序列文件格式、ORC格式和Parquet格式等。不同的存储格式对于数据的存储效率、压缩率和查询性能都有一定影响。 首先,文本格式是最基本的存储格式,它简单易用,但是不适合大规模数据存储和查询,因为它没有压缩和索引功能,查询性能会受到限制。 其次,序列文件格式是Hadoop默认的文件格式,它支持压缩和可切分,能够提高存储空间利用率和查询性能。 ORC(Optimized Rowe Columnar)格式是一种基于列式存储的高效存储格式,它能够提供更好的压缩比和查询性能,尤其适用于大规模数据仓库中的分析查询工作负载。 最后,Parquet格式也是一种列式存储格式,它具有更好的查询性能和压缩比,支持高级查询和分析操作。 在选择存储格式时,需要综合考虑数据类型、数据量、查询性能和存储空间等因素。如果数据量较小,可以选择文本格式或序列文件格式;对于大规模数据存储和分析场景,推荐选择ORC或Parquet格式。 此外,可以通过调整Hive的配置参数来进一步优化存储格式的选择,如选择适当的压缩算法、压缩级别和数据切分方式等。通过合理选择和配置存储格式,可以提高Hive查询性能、降低存储成本,并获得更好的用户体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值