lzo
lingzihan1215
这个作者很懒,什么都没留下…
展开
-
Hadoop集群上使用Lzo压缩
自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩 当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多 而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式 关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里: Lzo压缩相比Gzip压缩,有如下特点: 压缩解压的速度转载 2013-03-19 13:09:52 · 535 阅读 · 0 评论 -
hadoop lzo压缩
在hadoop中使用lzo的压缩算法可以减小数据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。 lzo本身不是splitable的,所以当数据为text格式时,用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是seque转载 2013-03-19 12:30:46 · 637 阅读 · 0 评论