IntelliJ IDEA中编写mapreduce程序上传至远程Hadoop集群运行

最新推荐文章于 2023-09-12 10:34:02 发布

wzw1105

最新推荐文章于 2023-09-12 10:34:02 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/qq_40791842/article/details/107266089

版权

hadoop 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

mapreduce

1 篇文章 0 订阅

订阅专栏

IntelliJ IDEA中编写mapreduce程序上传至远程Hadoop集群运行

本文主要讲怎么将 $m a p r e d u c e$ 程序打包成 $j a r$ 包并上传远程 $H a d o o p$ 集群运行，所以不讨论如何编写 $m a p r e d u c e$ 程序以及如何搭建 $H a d o o p$ 集群。然后虽然我这里实在 $m a c O S$ 系统下演示的，其实 $w i n d o w s$ 系统一样适用。

先来看一下打包前的项目结构 $(i n p u t$ 里面是存的要处理的数据 $)$

在这里插入图片描述

右键项目选择 $Open\ Module\ Setting$
选择 $Artifacts\ \rightarrow\ +\ \rightarrow JAR \rightarrow From\ modules\ with\ dependencies$

选择主类

先选择你这个项目的主类
在这里插入图片描述

  然后把这里的路径改成项目位置的一级目录下面，如下图所示：

在这里插入图片描述

点击 $A p p l y$
选择 $Build\ \rightarrow\ Build\ Artifacts$

在这里插入图片描述

选择 $B u i l d$

在这里插入图片描述

可以看到 $j a r$ 包已经生成
上述操作之后会发现项目下面多了两个文件夹，一个是 $M E T A - I N F$ (这个不用管他)，另一个是 $o u t$ 文件夹，在里面有你要的 $j a r$ 包
在终端或者 $c m d$ 里面 $s s h$ 到你的远程虚拟机
然后上传刚才生成的 $j a r$ 包
我这里直接放在了 $H o m e$ 下面，也就是上图中的红色文件（我是提前传上去了）
运行之前要检查你的 $H a d o o p$ 集群是否正确运行
这里根据你的集群是伪分布模式还是完全分布式集群，使用 $j p s$ 命令查看所有必须的进程是否已经启动（有哪些进程与你搭建集群时的配置有关系）
然后将你的数据上传至 $h d f s$
你可以先将数据从本地上传到虚拟机上，然后使用一下命令上传到 $h d f s$ :
```
hdfs dfs -put 虚拟机本地jar包存储完整路径 hdfs文件系统存储的路径
```
最后测试啦
命令如下所示（以我的例子为例）：
```
[hadoop@CQU-Hadoop-052 ~]$ hadoop jar PlayerCount.jar /wzw/input /wzw/output
```
注意这里运行之前 $/ w z w$ 下面只有一个 $i n p u t$ 文件夹， $o u t p u t$ 文件夹是没有的且不能有的。所以运行之前最好检查一下是否有这个目录，不然会报错。下面是运行结果

可以看到运行成功了

浏览器进入配置 $r e s o u r c e m a n a g e r$ 的节点的 $8088$ 端口（好像这个是默认的，如果修改了的话可能不是这个，如果忘记了的话可以翻一下你的那几个 $x m l$ 配置文件）也可以看到刚才提交的 $j o b$ 是 $S U C C E E D E D$ 状态