接昨天的文章,我们今天继续完成完全分布式集群的搭建,在开始搭建之前我们需要新建一个普通用户,因为安装包一般都放在普通用户的家目录下,不会放到root用户的家目录下。
给普通用户添加sudo权限Vim /etc/sudoers
这里退出一定要用强制保存退出命令“:wq!”,否则无法退出。
接下来开始安装JDK
配置环境变量
配置免密登陆
安装hadoop
修改Hadoop配置文件(重点来了!!敲黑板)
2、然后配置hadoop的核心配置文件core-site.xml,在文档的中新增如下内容:
<property> <name>fs.defaultFSname><value>hdfs://hadoop01:9000value>property> <property> <name>hadoop.tmp.dirname><value>/home/hadoop/data/hadoopdatavalue>property>
3、接下来配置hdfs-site.xml文件,我们在文件中添加如下内容:
<property><name>dfs.namenode.name.dirname><value>/home/hadoop/data/hadoopdata/namevalue><description>namenode管理数据存储目录description>property> <property><name>dfs.datanode.data.dirname><value>/home/hadoop/data/hadoopdata/datavalue><description>datanode的数据存储目录 真实数据description>property> <property><name>dfs.replicationname><value>2value><description>数据存储副本个数description>property> <property><name>dfs.secondary.http.addressname><value>hadoop03:50090value><description>secondarynamenode运行节点的信息,和 namenode 不同节点description>property>
这个文档主要配置了secondnamenode节点的运行位置,数据存储副本个数、datanode数据存储的路径,以及主节点的存储路径的信息。4、我们先将mapred-site.xml.template复制为mapred-site.xml,执行命令:sudo cpmapred-site.xml.template mapred-site.xml然后修改mapred-site.xml,进行mapreduce的配置,加入如下内容:
<property><name>mapreduce.framework.namename><value>yarnvalue>property>
这个配置主要是说明MapReduce资源调度由yarn进行。
<property><name>yarn.resourcemanager.hostnamename><value>hadoop02value>property><property><name>yarn.nodemanager.aux-servicesname><value>mapreduce_shufflevalue><description>YARN集群为 MapReduce 程序提供的 shuffle 服务description>property>
6、最后配置datanode从节点,编辑slaves文件并添加所有的虚拟机,如图:
这样hadoop的基本配置就差不多了,我们在第一篇的时候发过一张图是对hadoop分布式系统的规划方案,现在我们在看一下,是否与我们上边配置的一致,主节点放置在了hadoop01上,而secondnamenode我们放置在了虚拟机03上面,我们又把hadoop的资源调度框架yarn配置在了虚拟机02上,datanode节点我们同时放在了三台虚拟机上,并且配置了数据存储副本个数为2。如图:将hadoop的配置完成的安装包远程发送到其他节点
执行如下命令:
格式化 hdfs
启动hadoop