官方文档:https://hadoop.apache.org/docs/r2.7.7/
架构名词
NameNode :Hadoop HDFS 元数据主节点服务器,负责保存 DataNode 文件存储元数据信息, Namenode 记录着每个文件中各个块所在的数据节点的位置信息。
SecondaryNamenode :分担 namenode 的合并元数据的压力。所以在配置 SecondaryNamenode 的工作节点时,不要和 namenode 处于同一节点。事实上, 只有在普通的伪分布式集群和分布式集群中才有会 SecondaryNamenode 这个角色,在 HA 或 者联邦集群中都不再出现该角色。在 HA 和联邦集群中,都是有 standby namenode 承担。
DataNode :Hadoop 数据节点,负责存储数据。
JobTracker: Hadoop 的 Map/Reduce 调度器,负责与 TaskTracker 通信分配计算任务并跟踪任务进度。
TaskTracker: Hadoop 调度程序,负责 Map,Reduce 任务的启动和执行。
环境准备
1.centos7.5,配置静态ip,关闭防火墙,配置免密登陆,准备hosts
systemctl stop firewalld && setenforce 0
[root@hadoop1 ~]# vim /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.15.10 hadoop1
192.168.15.130 hadoop2
192.168.15.131 hadoop3
#免密步骤省略
ssh-keygen
ssh-copy-id
[root@hadoop1 ~]# vim /etc/ssh/ssh_config
...
Host *
# 配置连接时免输入yes
StrictHostKeyChecking no
GSSAPIAuthentication yes
...
[root@hadoop1 ~]# systemctl restart sshd
2.安装java
(每一台节点都要装)