MapReduce在map和reduce阶段添加依赖包办法
通常在MapReduce编程过程,大部分都是使用Hadoop jar的方式运行MapReduce程序,但是在开发map或reduce阶段中会需要引入外部的包,Hadoop集群环境并没有这些依赖包。
前言
比如Reduce数据写入Oracle需要添加Oracle的Driver依赖,还有写入Orc文件等需要orc-mapreduce、orc-core等包的依赖,可以在集群中把这些包拷贝到集群环境下,但是这样Yarn的NodeManager全部节点都是添加,这样是比较费劲的,此文章介绍更好的办法解决此类问题。
实现原理
在Job提交前,把相关的包添加到JOB的缓存中,并把依赖包上传到HDFS目录下,这样就可以有效长久的解决此类问题.
实现步骤
例:MapReduce读写ORC文件,Hadoop集群环境并没有MapReduceORC相关的包。
1. 把依赖包拷贝到Linux本节点/opt/bigdata/lib目录下,如下图
2. 把相关依赖包上传到集群的HDFS目录下,如/apps/hive/libs目录下,命令如下
hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/
3. 在MapReduce的Driver中添加这些依赖到Job缓存中
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...
这样在MapReduce运行Map和Reduce阶段都会加载这几个依赖包。