Gzip:Hadoop内置支持,压缩比高,不支持split,
通常用于放一些不常用冷数据,较高的压缩比可以极大的节省空间。
Bzip2:Hadoop内置支持,压缩比高,支持split,支持多文件,缺点就是慢;
适用于对处理速度要求不高的场景,一般不常用,
LZO:压缩比一般,支持split(需要建索引,文件修改后需要重新建索引),压缩/解压速度快,支持Hadoop Native库,需要自己安装;
适用于经常访问的热数据
LZ4:压缩比一般,不支持split,压缩/解压速度快,支持Hadoop Native库,需要自己安装。
适用于Map中间结果的压缩
Snappy:压缩比一般,不支持spilt,压缩/解压速度快,支持Hadoop Native库,需要自己安装
适用于Map中间结果的压缩。
Zstd:压缩比高跟Gzip相当,不支持spilt,压缩/解压速度快,支持Hadoop Native库,需要自己安装。
适用于Map中间结果的压缩。