一、安装lzo包
hadoop上安装lzo一般我们可以自己去下载lzo的包并且编译后安装,但比较麻烦。而HDP已经帮我们打包了lzo相关的rpm包,使用下面几个yum操作(先要配置好hdp的yum源)即可安装完毕:
1、安装lzo基本包:
yum -y install lzo lzo-devel hadoop-lzo hadoop-lzo-native
yum -y install hadooplzo hadooplzo_2_4_0_0_169-native
3、如果需要在本地进行压缩生成lzo文件,还需要安装lzop包:
yum -y install lzop
安装完毕,查看所有lzo的相关的包如下:
lzo-devel-2.06-1.el6.x86_64
hadooplzo-0.6.0.2.4.0.0-169.el6.noarch
hadooplzo_2_4_0_0_169-native-0.6.0.2.4.0.0-169.el6.x86_64
hadoop-lzo-native-0.6.0-1.x86_64
hadooplzo_2_4_0_0_169-0.6.0.2.4.0.0-169.el6.x86_64
hadoop-lzo-0.6.0-1.x86_64
lzop-1.02-0.9.rc1.el6.x86_64
lzo-2.06-1.el6.x86_64
在hdp安装目录(/usr/hdp/2.4.0.0-169/hadoop/lib/native)下可以发现有一个Linux-amd64-64文件夹,如何没有这个表明未安装成功,在运行lzo算法时会报错缺少lzo native包。
二、在hadoop中配置lzo算法
1 、在core-site.xml中修改io.
2、如果MR要使用lzo压缩,则需要修改以下相关参数:
mapreduce.map.output.compress(是否启用map中间结果输出压缩)
mapreduce.output.fileoutputformat.compress(是否启用输出压缩)
mapreduce.map.output.compress.codec(中间输出压缩算法)
mapreduce.output.fileoutputformat.compress.codec(输出压缩算法)
lzo部署完毕,可以自行测试。