安装Hadoop完全分布式:首先要安装JDK和MYSQL,安装完成JDK才可以安装hadoop
配置IP
BOOTPROTO=static # 将 dhcp 换成 static
ONBOOT=yes # 将 no 换成 yes
IPADDR=192.168.217.80 # 静态 IP
GATEWAY=192.168.217.1 # 默认网关 (不需要改动)
DNS1=114.114.114.114
输入:service network restart
配置host
输入:vi /etc/hosts
追加配置:
192.168.217.80 master
192.168.217.81 slave01
192.168.217.82 slave02
输入:scp -r /etc/hosts slave01:/etc/hosts
scp -r /etc/hosts slave02:/etc/hosts
1)将hadoop安装包上传到虚拟机中
2)解压hadoop安装包到指定位置:
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/soft
3)进入/opt/soft下,对解压的目录进行重命名
cd /opt/soft
mv hadoop-3.1.3/ hadoop
4)配置环境变量:
vim /etc/profile 这个是生效的
/etc/profile.d/hadoop-eco.sh 这个要删除
加入:
export HADOOP_HOME=/opt/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
5)输入hadoop version查看一下 或者配置完Hadoop配置文件后在查看
6)进入到hadoop中配置文件的目录,修改5个配置文件:
cd /opt/soft/hadoop/etc/hadoop/
1》hadoop-env.sh
加入jdk的路径配置
export JAVA_HOME=/opt/soft/jdk
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
【注意:下面几个配置到环境变量中也是可以的】
2》core-site.xml(配置namenode的通信地址和hadoop数据文件存放的目录)
在<configuration>标签之间加入下列内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/hadoop</value>
</property>
【注意:上面的master是作为namenode机器的主机名】
【注意:hadoop.tmp.dir这个目录不能存在,启动时会自动创建的】
3》hdfs-site.xml(数据存入hdfs后产生的副本数)
在<configuration>标签之间加入下列内容:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
4》mapred-site.xml(执行mapreduce使用yarn资源调度来进行)
在<configuration>标签之间加入下列内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5》yarn-site.xml(配置resnourcemanager资源调度管理者的机器是谁、最下面两个mem-check是关闭内存检测功能)
在<configuration>标签之间加入下列内容:
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
【注意:master是主机名】
6》workers【注意配置datanode的节点机器】
将里面原来的localhost干掉,添加三台机器的主机名
master
slave01
slave02
7》将配置好的hadoop远程分发给另外两台机器:
scp -r /opt/soft/hadoop slave01:/opt/soft
scp -r /opt/soft/hadoop slave02:/opt/soft
scp /etc/profile slave01:/etc/
scp /etc/profile slave02:/etc/
在slave01机器上:source /etc/profile
在slave02机器上:source /etc/profile
8》格式化namenode
hdfs namenode -format
【如果需要重置hadoop文件系统重新格式化的话,那么将core-site.xml中配置的那个hadoop.tmp.dir目录给删了,让其重新创建】
9》启动hadoop集群(在主节点上)
1>一键启动所有:start-all.sh
2>分开启动:
a》启动hdfs: start-dfs.sh
b》启动yarn: start-yarn.sh
停止hadoop,在主节点上执行:stop-all.sh
10》检测是否成功:
1)在主节点上输入 jps:
namenode
datanode
nodemanager
resourcemanager
seccondarynamendoe
在其他从机节点上输入jps:
datanode
nodemanager
2)打开浏览器,输入:http://主节点虚拟机IP:9870 确认是否可以打开hadoop的webUI管理界面