一、本文说明:
本次测试在五台虚拟机系统上进行完全分布式搭建。Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度。
 
二、环境说明:
       虚拟软件:VM10.0
       操作系统:Cent Os 6.7
       hadoop版本:hadoop-2.7.2
       JDK版本:jdk1.8_77
备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建
 
三、基本环境配置
       1、针对不同的模式在${HADOOP_HOME}/etc/下建立不同的配置文件夹
            独立模式:hadoop_alone(建议)
            伪分布模式:hadoop_presudo(建议)
            完全分布模式:hadoop_cluster(建议)
 
       2、参数配置目录的指定方式
              A、默认方式:${HADOOP_HOME}/etc/hadoop/*.xml
              B、通过启动参数指定配置目录
                     Start-dfs.sh –config=/path
              C、通过环境变量HADOOP_CONF_DIR=/path(/etc/profile)
       备注:因为搭建完全分布模式:我这里格式化名称节点和启动Hadoop的时候采用的B种方式。
四、环境搭建
第1步:在母机上搭建好JAVA和Hadoop基础环境
       参考文章:独立模式的Hadoop环境搭建
 
第2步:在母机上配置ssh
20160414065505551.png

第3步:在母机上配置hosts
20160414065538112.png

 
第4步:克隆4台虚拟机并修改这4台的网卡配置
       参考文章:克隆Linux后网卡修改方法
             
第5步:在母机上配置${HADOOP_HOME}/etc/hadoop_ cluster/core-site.xml   20160414065602348.png

             
 第6步 :配置${HADOOP_HOME}/etc/hadoop_cluster/hdfs-site.xml
20160414065621844.png

 
第7步、配置${HADOOP_HOME}/etc/hadoop_cluster/mapred-site.xml
20160414070011229.png


 
第8步、配置${HADOOP_HOME}/etc/hadoop_cluster/ yarn-site.xml 20160414070045314.png

 
第9步、删除另外四台主机上的${HADOOP_HOME}/etc/hadoop_cluster
 
第10步、将母机上${HADOOP_HOME}/etc/hadoop_cluster远程拷贝给另外四台机子上的${HADOOP_HOME}/etc/下
 20160414065737404.png

以此类推……
 
第11步、在母机上格式化HDFS文件系统
 20160414070118629.png

      
第12步、启动HDFS和YRAN的守护进程(start-dfs.sh,start-yarn.sh)
       start-dfs.sh --config /home/program/hadoop/etc/hadoop_cluster/
       start-yarn.sh --config /home/program/hadoop/etc/hadoop_cluster/
       备注 停止进程是按照YARN先关闭 然后关闭HDFS,不要频繁的格式化名称节点
 
第13步、通过fs操作HDFS里面的文件
       A、创建目录:hadoop fs -mkdir -p /user/Ubuntu
       B、显示目录:hadoop fs -ls -R /
       ……
第14步、访问:http://IP:50070
               访问:http://IP:8088
 20160414070141437.png
20160414070144910.png