1. 如果maper的输入时压缩文件,则compressionCodecFactory会自动根据文件后缀来判断压缩的类型,从而去调用相应的类去处理,比如文件的输入后缀为gz则会自动调用org.apache.hadoop.io.compress.Gzipcode来自动解压
2. 如果希望对输出文件也进行解压的话,则要设置作业的mapreduce.output.conpress 为tru,同时要指定压缩的类,mapreduce.output.compression.codec, 比如
conf.setBoolean("mapreduce.output.conpress",true);
conf.setClass("mapreduce.output.compression.codec",Gzipcodec.class,ComressionCodec.class);
3.如果希望对mapper的输出使用压缩则
conf.setCompressMapoutput(true); 对应mapreduce.compress.map.output
conf.setMapOutputCompressionClass(GzipCodec.class);对应mapreduce.map.output.comression.codec