MapReduce在Map和Reduce过程添加依赖包办法

MapReduce在map和reduce阶段添加依赖包办法

通常在MapReduce编程过程,大部分都是使用Hadoop jar的方式运行MapReduce程序,但是在开发map或reduce阶段中会需要引入外部的包,Hadoop集群环境并没有这些依赖包。

前言

比如Reduce数据写入Oracle需要添加Oracle的Driver依赖,还有写入Orc文件等需要orc-mapreduce、orc-core等包的依赖,可以在集群中把这些包拷贝到集群环境下,但是这样Yarn的NodeManager全部节点都是添加,这样是比较费劲的,此文章介绍更好的办法解决此类问题。

实现原理

在Job提交前,把相关的包添加到JOB的缓存中,并把依赖包上传到HDFS目录下,这样就可以有效长久的解决此类问题.

实现步骤

例:MapReduce读写ORC文件,Hadoop集群环境并没有MapReduceORC相关的包。

1. 把依赖包拷贝到Linux本节点/opt/bigdata/lib目录下,如下图

 

2. 把相关依赖包上传到集群的HDFS目录下,如/apps/hive/libs目录下,命令如下

hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/

3. 在MapReduce的Driver中添加这些依赖到Job缓存中

Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
   job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...

这样在MapReduce运行Map和Reduce阶段都会加载这几个依赖包。

 

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值