说明
gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,博主阅读了“剑仙ex”的: Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景很受启发,但这位仁兄没有做成表格进行对比,本文将会对这4种压缩格式优缺点,使用场景做一个表格,并且对“剑仙ex”原文中的一些观点发表一些不同意见和补充,方便各位阅看,也请各位指正。
优点
压缩格式 | 优点 | 缺点 | 使用场景 | 不同意见 |
---|---|---|---|---|
Gzip | 1.压缩解压速度快 , 压缩率高 , hadoop本身支持 2.处理压缩文件时方便 , 和处理文本一样 3.大部分linux 系统自带 Gzip 命令 , 使用方便 |
不支持切片 | 1.文件压缩后在130M以内 (一个块大小) , 都可以使用 GZip 压缩(因为Gzip唯一的缺点是不能切片) 2.总结 : 不需要切片的情况下 可以使用 |
|
Bzip2 |