我的hadoop大数据之路（三）

最新推荐文章于 2022-03-28 22:52:42 发布

qq_23660243

最新推荐文章于 2022-03-28 22:52:42 发布

阅读量7.7k

点赞数 1

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/qq_23660243/article/details/51165235

版权

大数据专栏收录该内容

24 篇文章 1 订阅

订阅专栏

最近忙的太厉害，一直没有时间总结一下，明天休息，所以感觉是时候来一发了。这里继续hadoop的历程。

本次详细讲解一下hadoop的集群模式。上次运行的是在单机的单节点情况下进行的，也就是所谓的为分布式，我的本地环境简介如下(前面是主机名，后面是ip地址，我配的是静态的，怎么配此处不做过多简介)：

sun	192.168.152.1
jupiter	192.168.152.3
moon	192.168.152.9
neptune	192.168.152.11

我的用户为hadoop，工作空间为/home/hadoop/apps/hadoop-2.6.4。具体安装过程我也不做过多介绍（此时先不必着急配置sun主机以外的节点）。在sun主机下，进入hadoop包，里面有与其相关的文件夹，我们进入etc/hadoop/。将会见到如下图所示配置文件：

这里的mapred-site.xml本身并没有此配置，原名有个template后缀，改成此名字即可。然后可以配置hadoop.env.sh文件，此文件是hadoop的环境文件，里面有个export JAVA_HOME的变量，将后边的变量值改为你的java所在目录，如果不知道，可以在linux上使用echo $JAVA_HOME来查看（如果还没有，就证明你的java环境没有配置，那么亲，不用继续了，下面的你也运行不起来）。

然后我们继续查看配置文件core-site.xml,这个文件是hadoop集群的核心配置文件，配置结果如下：

首先我需要对这里的参数简单的说明一下：这里的第一个是指明我的namenode节点的位置（如果不了解，可以先去看hadoop的机制，我这里不详细说），这里的hdfs://是hadoop中分布式uri的路径的标准格式，sun是我的主机名，这个名字可以在/etc/hosts文件中进行映射操作，如下图：

这样电脑就可以找到相应的主机了。后边的9000是hadoop提供的接口，可以先不必理会。

然后我们进行配置hdfs.site.xml文件，该文件主要配置集群的分布式文件系统的相关配置，我的配置如下：

这里第一个是指定我的namenode节点的文件的存放地址，第二个是指定所有的datanode节点的数据的存放地址（这里指的是本地），第三个是指定我的namenode的副本节点的所在位置，倒数第二个是为了我在windows方便调试mapreduce程序时产生权限问题加入的，不过滤权限，最后是指定每个存放进来的数据，我备份的数量。

由于在hadoop版本2以后引入了yarn，所以目前都是通过mapreduce调用yarn的框架，所以在mapred.site.xml中我们只加入：