CDH-LZO配置


下载和CDH版本对应的hadoop-lzo版本

如下:

 

下载地址:http://archive.cloudera.com/gplextras5/parcels/

需要下载如下三个文件:

GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel

GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.sha1(使用的时候重命名成.sha)

manifest.json

配置包到cloudera-manager共享目录

因为使用的是parcels安装,首先将下载好的文件放到cloudera-manager共享的目录中,此处为:

 

进入到cloudera-manager的控制页面,主机àparcelà位置,在CNNIC(CM集群的名字)选项中目录改为/opt/cloudera-manager/cloudera/parcel-repo。

安装激活lzo服务

Cloudera-manager控制页面,主机àparcelà检查新Parcel,如果配置正确,则出现如下界面:

 

点击分配,进行到如下界面:

 

之后进入激活状态中:

 

步骤完成后,状态一列会出现“已分配。已激活”。

 

至此,lzo服务安装工作已经完成。

修改配置集群的lzo服务

修改HDFS配置

在io.compression.codecs属性值中追加如下值:

com.hadoop.compression.lzo.LzoCodec

com.hadoop.compression.lzo.LzopCodec

如下图所示:

 

修改YARN配置

将mapreduce.application.classpath的属性值增加一项:/opt /cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

如下图所示:

 

修改MR应用程序环境

修改mapreduce.admin.user.env的属性值,增加一项:

/opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib/native,如下图所示:

 

重启集群生效。

Lzo使用步骤:

将文件以lzop命令进行本地压缩;

将压缩好的.lzo文件上传put到Hadoop集群;

Hive建表指向刚上传的文件;

create external table testlzo(

id int comment ‘id’,

name string comment ‘name’

)

row format delimited fields terminated by '\001'

stored as inputformat 'com.hadoop.mapred.deprecatedlzotextinputformat'

outputformat 'org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat'

location '……';

使得查询结果以压缩的格式输出:在hive脚本执行之前进行环境的设置

其中set hive.exec.compress.output=true;

set mapred.output.compression.codec=com.hadoop.compression.lzo.lzopcodec;

 

索引LZO文件


每个节点执行

sudo yum install lzo liblzo-devel
hadoop jar /opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib/hadoop-lzo-0.4.15-cdh5.8.0.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/tb_lava_appuserdata/date=2017 


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CDH-6.3.2是由Cloudera提供的一个开源的Hadoop生态系统版本。CDH包含了许多Apache项目,如Hadoop、HBase、Hive、Impala等,并且集成了Cloudera自家开发的一些工具和服务。 要下载CDH-6.3.2,首先需要访问Cloudera官网(www.cloudera.com)。在官网上,可以找到下载页面,其中包含了各个版本的CDH。 在下载页面上,可以找到CDH-6.3.2的下载链接。点击相关链接后,会跳转到下载页面。在下载页面上,可以选择各个组件的二进制文件、文档以及示例代码等。 选择相应的组件二进制文件后,会开始下载CDH-6.3.2的安装包。下载的速度取决于网络连接的速度和服务器的负载情况。 一旦下载完成,就可以在本地进行安装。在安装之前,需要确保系统满足CDH的运行要求,如硬件配置和操作系统版本等。 CDH-6.3.2的安装过程是相对复杂和耗时的,需要仔细按照官方提供的文档进行操作。安装过程涉及到配置各个组件的参数、设置集群的配置文件以及启动服务等等。 一旦安装完成,就可以开始使用CDH-6.3.2了。CDH提供了一个Web界面,可以通过浏览器访问进行集群管理和监控。同时,也可以使用相应的命令行工具来操作和管理集群。 总结来说,要下载CDH-6.3.2,首先需要访问Cloudera官网的下载页面,选择相应的组件二进制文件进行下载。然后,按照官方文档的指引进行安装、配置和启动。最后,通过Web界面或命令行工具来管理和操作集群。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值