Hadoop文件系统——对数据流的压缩和解压缩
通过CompressionCodec对数据流进行压缩和解压缩,它包含两个函数,可以轻松用于对写入和输出数据进行压缩和解压缩。
可用createOutputStream(OutputStream out)方法在底层的数据流中对需要以压缩格式写入(在此之前尚未压缩)的数据新建一个CompressionOutputStream对象。
相反,对输入数据流中读取的数据进行解压缩的时候,则调用createInputStream(InputStream input) 获取CompreaasionStream,可以通过该方法从底层数据流读取解压缩之后的数据。
CompressionOutputStream 和 CompressionInputStream ,类似于java.util.zip.DeflaterOutputStream 和 java.util.zip.DeflaterInputStream,只不过前两者能够重置底层的压缩方法或者解压缩方法。
下面是范例:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;
public class StreamCompress {
public static void main(String[] args) throws Exception {
String codecClassname = args[0];
Class<?> codecClass = Class.forName(codecClassname);
Configuration conf = new Configuration();
CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);
CompressionOutputStream out = codec.createOutputStream(System.out);
IOUtils.copyBytes(System.in, out, 4096, false);
out.finish();
}
}
下边是运行结果: