MapReduce在Map和Reduce过程添加依赖包办法

最新推荐文章于 2023-08-14 21:44:26 发布

Liu-Lv

最新推荐文章于 2023-08-14 21:44:26 发布

阅读量2.3k

点赞数 2

分类专栏： Hadoop MapREDUCE 文章标签： MapReduce包依赖 MapReduce

本文链接：https://blog.csdn.net/u010077555/article/details/83932127

版权

Hadoop 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

MapREDUCE

1 篇文章 0 订阅

订阅专栏

MapReduce在map和reduce阶段添加依赖包办法

通常在MapReduce编程过程，大部分都是使用Hadoop jar的方式运行MapReduce程序，但是在开发map或reduce阶段中会需要引入外部的包，Hadoop集群环境并没有这些依赖包。

前言

比如Reduce数据写入Oracle需要添加Oracle的Driver依赖，还有写入Orc文件等需要orc-mapreduce、orc-core等包的依赖，可以在集群中把这些包拷贝到集群环境下，但是这样Yarn的NodeManager全部节点都是添加，这样是比较费劲的，此文章介绍更好的办法解决此类问题。

实现原理

在Job提交前，把相关的包添加到JOB的缓存中，并把依赖包上传到HDFS目录下，这样就可以有效长久的解决此类问题.

实现步骤

例:MapReduce读写ORC文件，Hadoop集群环境并没有MapReduceORC相关的包。

1. 把依赖包拷贝到Linux本节点/opt/bigdata/lib目录下，如下图

2. 把相关依赖包上传到集群的HDFS目录下，如/apps/hive/libs目录下，命令如下

hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/

3. 在MapReduce的Driver中添加这些依赖到Job缓存中

Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
   job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...

这样在MapReduce运行Map和Reduce阶段都会加载这几个依赖包。

Liu-Lv

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MapReduce在Map和Reduce过程添加依赖包办法

MapReduce在map和reduce阶段添加依赖包办法通常在MapReduce编程过程，大部分都是使用Hadoop jar的方式运行MapReduce程序，但是在开发map或reduce阶段中会需要引入外部的包，Hadoop集群环境并没有这些依赖包。前言比如Reduce数据写入Oracle需要添加Oracle的Driver依赖，还有写入Orc文件等需要orc-mapreduce、o...
复制链接

扫一扫

专栏目录