大数据之数据的压缩与存储

「已注销」

已于 2023-06-23 17:16:15 修改

阅读量1.2k

点赞数

分类专栏： Hive 文章标签：大数据 hive hadoop

于 2022-12-04 23:08:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43339889/article/details/128169063

版权

本文介绍了大数据场景下，Hive的压缩方式如Deflate、Snappy等的优缺点及在ODS、DW、DA层的选择。同时探讨了Hive的数据存储格式，包括行存储与列存储的特点，强调列式存储在分析场景下的优势，如降低IO开销和提高压缩比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、Hive的压缩方式
二、 Hive的数据存储格式
总结

前言

由于大数据需要存储的数据较多，如果直接存储原始数据，将会占用较多的硬盘空间，于是就诞生了存储方式和压缩方式，以一定的算法降低数据占用的空间，并且保证数据不丢失，从而提高空间的利用率。

一、Hive的压缩方式

（一）概念

（1）Hive底层为MapReduce，所以Hive的压缩实际就是MapReduce的压缩
（2）MapRedece的压缩分为Map端结果文件压缩和Reduce端结果文件压缩

（二）简介

压缩方式常用的有Deflate，Snappy，ZLib，Gzip和Bzip2，不同的压缩方式效率不同；
（1）从压缩比来说，Bzip2 > ZLib > Gzip > deflate > Snappy，除了Snappy之外的压缩方式可以保证最小的压缩，但是在运算过程中时间消耗较大；
（2）从压缩性能上来说， Snappy > Deflate > Gzip > Bzip2，其中，Snappy压缩和解压缩速度快，压缩比低。
所以一般在生产环境中，经常会采用snappy压缩，以保证运算效率

最低0.47元/天解锁文章

「已注销」

博客等级

码龄7年

58
原创

136
点赞

91
收藏

135
粉丝

关注

私信

热门文章

分类专栏

Spark 付费 10篇
Java 付费 13篇
Python 1篇
大数据 2篇
Kafka 4篇
总结 1篇
Phoenix 4篇
Hive 7篇
Hadoop 7篇
ZooKeeper 3篇
HBase 3篇
Linux 2篇
Doris 1篇

展开全部收起

上一篇：: 大数据之Hive函数

下一篇：: Zookeeper集群搭建

最新评论

Python学习之路
Gauss松鼠会: 很详细的记录，边学边记录，很好的内容，赞
大数据之PySpark的RDD创建和分区
Gauss松鼠会: 每一个步骤都很详细，很好的指导
大数据导航栏帖
神秘泣男子: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
Python学习之路
Srlua小谢: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
大数据之RDD的算子分类
经海路大白狗: 内容很好，读完后，让我学到了很多

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

「已注销」 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。