我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。
之前要查看已经put到HDFS的LZO文件,都是先get到本地,再用lzop命令解压出来查看,但是有时候我们只是想预览下lzo文件的几行信息,前面一种方式就比较麻烦了,替代方案可以使用如下