在生产环境中,随着平台数据量的不断增大,数据的存储面临着一定的挑战,除了能够横向扩展存储集群存储能力
外,还可以通过压缩技术减少文件的大小。
GZip 和 BZip2压缩格式是所有最近的hadoop版本支持的,linux本地的库也支持这种格式的压缩和解压缩。
压缩比:Snappy:50% lz4:50% lzo:48% gzip:31% bzip:27%
压缩时间从快到慢排序:Snappy > lzo > GZIP > BZIP2
支持可分割性:BZIP2 LZO(必须设索引)
在生产环境中,随着平台数据量的不断增大,数据的存储面临着一定的挑战,除了能够横向扩展存储集群存储能力
外,还可以通过压缩技术减少文件的大小。
GZip 和 BZip2压缩格式是所有最近的hadoop版本支持的,linux本地的库也支持这种格式的压缩和解压缩。
压缩比:Snappy:50% lz4:50% lzo:48% gzip:31% bzip:27%
压缩时间从快到慢排序:Snappy > lzo > GZIP > BZIP2
支持可分割性:BZIP2 LZO(必须设索引)