基于CDH5集群配置snappy压缩,配置步骤如下:
1、常用的三种压缩gzip,lzo,snappy,经分析对比
算法 压缩后/压缩前 压缩速度 解压速度
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Snappy 22.2% 172 MB/s 409 MB/s
snappy综合实力最佳,lzo我们也尝试使用,但是常导致个别老机器down机。
2、配置hdfs的core-site.xml相应压缩项
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress