hadoop深入研究:(七)——压缩

最新推荐文章于 2024-03-25 19:52:36 发布

wisgood

最新推荐文章于 2024-03-25 19:52:36 发布

阅读量1.1k

点赞数

分类专栏： MapReduce

MapReduce 专栏收录该内容

69 篇文章 3 订阅

订阅专栏

转载自 http://blog.csdn.net/lastsweetop/article/details/9162031

文件压缩主要有两个好处，一是减少了存储文件所占空间，另一个就是为数据传输提速。在hadoop大数据的背景下，这两点尤为重要，那么我现在就先来了解下hadoop中的文件压缩。

hadoop里支持很多种压缩格式，我们看一个表格：

DEFLATE是同时使用了LZ77算法与哈夫曼编码（Huffman Coding）的一个无损数据压缩算法，源代码可以在zlib库中找到。gzip是以DEFLATE算法为基础扩展出来的一种算法。

所有的压缩算法都是空间和时间的转换，更快压缩时间还是更小的压缩比，可以通过参数来指定，－1意味着速度，－9意味着空间。拿gzip做个例子，下面就意味着更快速的压缩：

[plain]view plaincopy 
   
 gzip -1 file  

gzip在时间和空间上的取舍比较折中，bzip2压缩比gzip更有效，但是速度更慢。bzip2的解压速度比它的压缩速度要快。但是和其他压缩格式比又是最慢的，但是压缩效果明显是最好的。snappy和lz4的解压速度比lzo好很多。

splittable表示压缩格式是否可以被分割，也就是说是否支持随即读。压缩数据是否能被mapreduce使用，压缩数据是否能被分割就很关键了。

举个例子，一个未压缩的文件有1GB大小，hdfs默认的block大小是64MB,那么这个文件就会被分为16个block作为mapreduce的输入，每一个单独使用一个map任务。如果这个文件是已经使用gzip压缩的呢，如果分成16个块，每个块做成一个输入，显然是不合适的，因为gzip压缩流的随即读是不可能的。实际上，当mapreduce处理压缩格式的文件的时候它会认识到这是一个gzip的压缩文件，而gzip又不支持随即读，它就会把16个块分给一个map去处理，这里就会有很多非本地处理的map任务，整个过程耗费的时间就会相当长。

lzo压缩格式也会是同样的问题，但是通过使用hadoop lzo库的索引工具以后，lzo就可以支持splittable。bzip2也是支持splittable的。

那么如何选择压缩格式呢？这取决于文件的大小，你使用的压缩工具，下面是几条选择建议，效率由高到低排序：

1.用一些包含了压缩并且支持splittable的文件格式，比如Sequence File，RCFile或者Avro文件，这些文件格式我们之后都会讲到。如果为了快速压缩可以使用lzo，lz4或者snappy压缩格式。

2.使用提供splittable的压缩格式，比如，bzip2和索引后可以支持splittable的lzo。

3.提前把文件分成几个块，每个块单独压缩，这样就无需考虑splittable的问题了

4.不要压缩文件

以不支持splittable的压缩格式存储一个很大的数据文件是不合适的，非本地处理效率会非常之低。

感谢Tom White,此文章大部分来自于大神的definitive guide，奈何中文版翻译太烂，就在英文原版的基础上和官方的一些文档加入一些自己的理解。

全当是读书笔记吧，画蛇添足之举。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wisgood

CSDN认证博客专家 CSDN认证企业博客

码龄14年

166: 原创

2万+: 周排名

220万+: 总排名

280万+: 访问

: 等级

2万+: 积分

1206: 粉丝

525: 获赞

188: 评论

1184: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Hadoop从入门到放弃 7篇
开源社区贡献 2篇
MapReduce 69篇
Hive 93篇
spark 65篇
Java 102篇
Yarn 5篇
Linux 84篇
数据仓库 8篇
大数据运维 6篇
Hbase 4篇
算法 22篇
Pig 3篇
mysql 10篇
tez 3篇
docker 1篇
HDFS 7篇
编程工具 8篇
scala 9篇
kafka 15篇

最新评论

多年大数据开发经验总结
菜码代码: 现在呢，都没什么公司用了
flink回撤流分析
CSDN-Ada助手: 非常感谢您分享关于flink回撤流分析的博客，这篇文章对于正在学习和使用flink的开发者来说非常有帮助。我觉得下一篇博客可以继续探讨flink的流处理能力，在实际场景中如何应用flink实现数据处理和分析，建议您可以写一篇关于“flink实时数据处理的最佳实践”或“flink在大数据分析中的应用”等主题，相信会有更多读者受益。期待您的下一篇分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
hive中join导致的数据倾斜问题排查
wennwennn: 可能其他大key分到其他reduce,大家都慢,就不倾斜了
hive 使用lzo遇到的一个奇怪的问题
code学习社: 请问一下问题解决了，可以告知一下解决方法吗，感谢
如何确定Kafka的分区数、key和consumer线程数
打破砂锅问到底007: 谢谢分享。默认情况下， kafka 是根据 key 来分配消息到哪个 topic的分区的，这样就可以实现某一台消费者机器都是同一个 key的消息，也就是这个 key的消息只会到同一个机器上，这对想保证一定顺序性需求的同学是有帮助的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。