mapreduce job提交的几种运行方式

最新推荐文章于 2024-03-21 15:56:41 发布

gamedev˚

最新推荐文章于 2024-03-21 15:56:41 发布

阅读量1.7k

点赞数 1

分类专栏：【大数据】➣ Hadoop 文章标签： mapreduce hadoop

欢迎转载，注明作者和出处就好！如果有任何问题或文章存在明显的谬误，请留言说明原因谢谢，我也可以知道原因，不断进步！

本文链接：https://blog.csdn.net/Coder__CS/article/details/78406349

版权

【大数据】➣ Hadoop 专栏收录该内容

30 篇文章 3 订阅

订阅专栏

总共整理下来有三大类：

集群上直接通过jar包来调用，输入和输出文件必须都存在hdfs集群上
linux环境下，在eclipse中集群或本地调用程序，以及输入和输出文件存于集群或本地
windows环境下，在eclipse中集群或本地调用程序，以及输入和输出文件存于集群或本地

1、在eclipse中开发好mr程序（windows或linux下都可以），然后打成jar包(wc.jar)，上传到服务器
执行命令

hadoop jar wc.jar com.elon.bigdata.hadoop.MainClassRunner

这种方式会将这个job提交到yarn集群上去运行,程序的输入和输出文件可以存在windows/linux本地或者hdfs集群上,根据程序中编写的Path路径来做选择。

2、在Linux的eclipse中直接启动Runner类的main方法，这种方式可以使job运行在本地，也可以运行在yarn集群

究竟运行在本地还是在集群，取决于第一个配置参数

conf.set("mapreduce.framework.name", "yarn");   //设置mapreduce的运行是在local(默认)还是yarn上
conf.set("yarn.resourcemanager.hostname", "hadoop");    //若在yarn上运行，则指定yarn主机名

如果确实需要在eclipse中提交到yarn执行，必须做好以下两个设置
- 将mr工程打成jar包(wc.jar)，放在工程主目录下
- 在工程的main方法中，加入一个配置参数 conf.set(“mapreduce.job.jar”,”wc.jar”);

3、在windows的eclipse中运行本地模式，步骤为：

a、在windows中找一个地方放一份hadoop的安装包，并且将其bin目录配到环境变量中
b、根据windows平台的版本（32？64？win7？win8？），替换掉hadoop安装包中的本地库(bin,lib)
c、mr程序的工程中不要有参数mapreduce.framework.name的设置

4、在windows的eclipse中运行main方法来提交job到集群执行，比较麻烦

a、类似于方式3中所描述的对本地库兼容性进行改造
b、修改YarnRunner这个类

gamedev˚

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录