hadoop分布式集群安装-CSDN博客

本文链接：https://blog.csdn.net/qq_30889993/article/details/89643341

一、前提

安装jdk，搭建三台虚拟机，配置好ip地址，修改hostname，ssh免密登陆完成，下载hadoop-2.7.2.tar

二、搭建hadoop集群

1.解压hadoop-2.7.2.tar到自己需要的目录下，配置好环境变量

$ sudo vim /etc/profile

export HADOOP_HOME=/usr/hadoop/apps/hadoop-2.7.2

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

$ source /etc/profile

2.修改8个配置文件,四个*-site.xml,三个*-env.sh,一个slaves

1）一个slaves,指定自己三台服务器的hostname

vim slaves

hadoop01

hadoop02

hadoop03

2)三个*-env.sh,分别是hadoop-env.sh,mapred-env.sh,yarn-env.sh

vim hadoop-env.sh

export JAVA_HOME=/jdk-8 #指定自己jdk安装路径

vim mapred-env.sh

export JAVA_HOME=/jdk-8 #指定自己jdk安装路径

vim yarn-env.sh

export JAVA_HOME=/jdk-8 #指定自己jdk安装路径

3)四个*-site.xml

core-site.xml
   
   <property>
           <name>fs.defaultFS</name>
       <value>hdfs://hadoop01:9000</value>
   </property>
   
   <property>
           <name>hadoop.tmp.dir</name>
           <value>/usr/hadoop/cdh/hadoop/data/tmp</value>
   </property>
   
   <property>
       <name>hadoop.proxyuser.hadoop.hosts</name>
       <value>*</value>
   </property>
   
   <property>
       <name>hadoop.proxyuser.hadoop.groups</name>
       <value>*</value>
   </property>

hdfs-site.xml
   <property>
           <name>dfs.replication</name>
           <value>1</value>
   </property>

<property>
       <name>dfs.namenode.secondary.http-address</name>
       <value>hadoop03:50090</value>
   </property>

mapred-site.xml
   
   <property>
       <name>mapreduce.jobhistory.address</name>
       <value>hadoop01:10020</value>
   </property>
   
   <property>
       <name>mapreduce.jobhistory.webapp.address</name>
       <value>hadoop01:19888</value>
   </property>
   
   <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
   </property>

yarn-site.xml
   
   <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
   </property>

<property>
           <name>yarn.resourcemanager.hostname</name>
           <value>hadoop02</value>
   </property>

   
   <property>
       <name>yarn.log-aggregation-enable</name>
       <value>true</value>
   </property>

<property>
       <name>yarn.log-aggregation.retain-seconds</name>
       <value>604800</value>
   </property>

<property>
       <name>yarn.log.server.url</name>
       <value>http://hadoop03:19888/jobhistory/logs/</value>
   </property>

创建namenode的目录

mkdir -p /usr/hadoop/cdh/hadoop/data/tmp

3.格式化namenode

$ bin/hdfs namenode -format

4.启动集群

启动hdfs文件系统:不同hostname的机器分配的资源不同，启动时候要注意

[ hadoop@hadoop02 ~]$ sbin/start-dfs.sh

启动yarn:
[hadoop@hadoop02 ~] $ sbin/start-yarn.sh

启动历史服务器:
[hadoop@hadoop01 ~] $ sbin/mr-jobhistory-daemon.sh start historyserver

5.验证启动是否成功