相关链接:
HDFS伪分布式搭建(基于hadoop-2.6.5的单NameNode形式)
https://blog.csdn.net/a755199443/article/details/97158845
HDFS-HA高可用完全分布式搭建(基于hadoop-2.6.5的多NameNode形式)
https://blog.csdn.net/a755199443/article/details/97165985
hadoop-yarn环境搭建(基于hadoop-2.6.5) 2019年07月25日 19:22:16
https://blog.csdn.net/a755199443/article/details/97273269
- 环境背景
- 1 修改hosts文件
- 2 免密钥登录
- 3 安装hadoop
HDFS完全分布式搭建
环境背景
完全分布式即NameNode和DataNode等部署在不同的节点上
各节点的系统时间需要同步, 各节点预先安装好jdk1.7 因为多节点有相同操作,使用xshell的同步命令能简化步骤
使用的各节点操作系统为CentOS_6.5
共四个节点node01,node02,node03,node04,ip分别为
node01 192.168.110.101
node02 192.168.110.102
node03 192.168.110.103
node04 192.168.110.104
将以node01作为NameNode,node02作为SecondNameNode
node02,node03,node04作为DataNode
登录用户为root
选择node01为管理节点,若没有特殊说明,默认操作的都是node01节点
hadoop-2.6.5资源链接:
链接:https://pan.baidu.com/s/1NHTCtqHbsuKztpruSRyB-A
提取码:j0sg
1 修改hosts文件
在每个节点的hosts文件末尾加上节点地址192.168.110.101 node01
192.168.110.102 node02
192.168.110.103 node03
192.168.110.104 node04
vim /etc/hosts
2 免密钥登录
为了使用hadoop的管理脚本控制所有节点,要使node01 (任选的一个节点) 获得其他节点的免密钥登录权限
node01输入命令
ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
在/root目录生成.ssh目录
进入.ssh目录,其中有密钥id_dsa和公钥id_dsa.pub
把公钥放到访问方的认证文件里即可获得免密钥登陆权限
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
原本需要密码
完成免密钥登录后不需要密码
接下来做其他节点的免密钥登录
先在每个节点做一遍以下操作
① ssh root@localhost
② 输入密码
③ exit
将node01的公钥复制给其他三个节点,分别使用命令(此时还需要输入其他节点的登陆密码)
scp id_dsa.pub root@node02:/root/.ssh/node01.pub
scp id_dsa.pub root@node03:/root/.ssh/node01.pub
scp id_dsa.pub root@node04:/root/.ssh/node01.pub
在其他三个节点的/root/.ssh目录创建认证文件
cat node01.pub >>authorized_keys
成功免密登录
3 安装hadoop
首先在四个节点创建安装目录/opt/hdfs
预先在四个节点修改环境变量
在/etc/profile文件末尾加上(含java环境变量,按自己实际情况更改)
export JAVA_HOME=/usr/java/jdk1.7.0_67
export HADOOP_PREFIX=/opt/hdfs/hadoop-2.6.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin
使环境变量生效
source /etc/profile
接下来只要在第一个节点完成hadoop的安装,再分发给其余三个节点即可
3.1 解压hadoop
将安装包文件上传至节点(在环境背景中有资源链接)
解压,获得hadoop-2.6.5文件夹
将其移动至新建的/opt/hdfs目录
3.2 修改管理脚本
因为要远程执行hadoop的管理脚本,而远程执行时不会与先读取profile文件,即环境变量失效,解决办法为修改脚本中的命令为绝对路径查找
进入/opt/hdfs/hadoop-2.6.5/etc/hadoop目录,逐个修改”env”后缀的文件
hadoop-env.sh 第25行
改为
mapred-env.sh 第16行
改为
yarn-env.sh 第26行
改为
3.3 修改配置文件
仍然在/opt/hdfs/hadoop-2.6.5/etc/hadoop目录
core-site.xml文件中做修改
注意此步开始与伪分布式环境开始不同
在configuration标签中加上
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hdfs/hadoop/full</value>
</property>
其中fs.defaultFS指定meNode的位置
hadoop.tmp.dir位置的修改是出于安全性的考虑
继续修改hdfs-site.xml
hadoop框架默认副本数为3,这里修改为2
dfs.namenode.secondary.http-address设置SencondNameNode位置
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node02:50090</value>
</property>
slaves文件
slaves文件用于设定DataNode节点
3.4 分发hadoop
给其他节点做拷贝,输入命令
scp -r /opt/hdfs/hadoop-2.6.5/ node02:/opt/hdfs/
scp -r /opt/hdfs/hadoop-2.6.5/ node03:/opt/hdfs/
scp -r /opt/hdfs/hadoop-2.6.5/ node04:/opt/hdfs/
3.5 开始格式化
hdfs namenode -format
注意成功提示
3.6 启动各角色
start-dfs.sh
3.7 检测是否成功
在windows上检测完全分布式hdfs是否搭建成功
打开浏览器输入网址http://192.168.110.101:50070(预先关闭linux的防火墙或者开放端口)
3.7 关闭hdfs
输入命令
stop-dfs.sh