压缩所带来的好处,磁盘、IO,都来带来很多好处,同时也有很多的弊端。
生产环境经常用的集中压缩 gzip 、 bzip2 、LZO、Snappy
Bzip2 压缩比30% ---支持分割
gzip 压缩比40%
LZO Snappy 压缩比50% --LZO支持分割,前提是有索引
hadoop中压缩的配置使用
core-site.xml
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
</value>
</property>
MapReduce中mapred-site.xml
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>