hadoop lzocodec 和lzopcodec 的区别以及索引创建

最新推荐文章于 2021-09-22 19:44:34 发布

鱼游浅海_飞

最新推荐文章于 2021-09-22 19:44:34 发布

阅读量415

点赞数

本文链接：https://blog.csdn.net/dxqlb1001/article/details/88560472

版权

1:区别

LzoCodec比LzopCodec更快， LzopCodec为了兼容LZOP程序添加了如 bytes signature, header等信息
如果使用 LzoCodec作为Reduce输出，则输出文件扩展名为".lzo_deflate"，它无法被lzop读取；如果使用LzopCodec作为Reduce输出，则扩展名为".lzo"，它可以被lzop读取
生成lzo index job的”DistributedLzoIndexer“无法为 LzoCodec，即 ".lzo_deflate"扩展名的文件创建index
”.lzo_deflate“文件无法作为MapReduce输入，”.LZO"文件则可以。
综上所述得出最佳实践：map输出的中间数据使用 LzoCodec，reduce输出使用 LzopCodec

2：创建索引

lzo文件默认不支持split，创建索引后支持split,这样作为map输入时就可以将文件分割成多个map，否则只能有一个map

只有lzopcodec生成的.LZO文件才能创建索引

（1）单机版本

hadoop jar hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer

/user/recsys/part_test/dt=2019-02-27/xxx_x.lzo

或者

hadoop jar hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer /user/recsys/part_test/dt=2019-02-27

（2）集群版本

hadoop jar hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/recsys/part_test/dt=2019-02-27/xxx_x.lzo

或者

hadoop jar hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/recsys/part_test/dt=2019-02-27

鱼游浅海_飞

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop lzocodec 和lzopcodec 的区别以及索引创建

1:区别LzoCodec比LzopCodec更快， LzopCodec为了兼容LZOP程序添加了如bytes signature, header等信息如果使用LzoCodec作为Reduce输出，则输出文件扩展名为".lzo_deflate"，它无法被lzop读取；如果使用LzopCodec作为Reduce输出，则扩展名为".lzo"，它可以被lzop读取生成lzo index job...
复制链接

扫一扫