hadoop深入研究:(七)——压缩

本文探讨了Hadoop中文件压缩的重要性,包括减少存储空间和提升数据传输速度。文章介绍了DEFLATE、gzip、LZO、BZIP2等压缩算法,强调了压缩格式的可分割性(splittable)对于MapReduce的影响。建议根据文件大小和需求选择合适压缩格式,如Sequence File、RCFile或Avro,并推荐使用支持可分割的lzo、lz4、snappy或bzip2压缩。

转载请标明出处:hadoop深入研究:(七)——压缩

文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。

hadoop里支持很多种压缩格式,我们看一个表格:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值