出于保证数据安全性和数据传输的高效性的平衡考虑,HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架和跨机房。同时,NameNode 在分配 Block 的存储位置的时候,会尽可能把数据块的副本放到多个机架甚至机房中,防止机架出现事故或者机房出现事故时候的数据丢失问题发生。
这就是 HDFS 的机架感知,首先机房和机架的信息是需要用户自己配置的,Hadoop对机架的感知并非是自适应的,而是需要人为的告知Hadoop哪台机器属于哪个机架,这样在Hadoop的NameNode启动初始化时,会将这些机器与机架的对应信息保存在内存中,用来作为对接下来所有的HDFS的写块操作分配DataNode列表时(比如3个block对应三台DataNode)的选择DataNode策略,做到Hadoop allocate block的策略:尽量将三个副本分布到不同的机架。,然后根据配置的信息,NameNode 会有如下的副本放置策略:
(低版本 Hadoop 副本节点选择)
首先挑选跟HDFS Client同一节点的DataNode作为存储第一个Block副本的位置,假如HDFS Client不在任何一个DataNode上,那么随便选择一个DataNode。其次,会借助NameNode的机架感知特征,选择跟第一个Block副本地点DataNode不同的机架上的任意一个DataNode来存储Block的第二个副本,比如说/rack2。Block的第三个副本也会存在这个/rack2上,可以是是别的一个DataNode。
(Hadoop2.7.2 副本节点选择)
第一个副本在 client 所处的节点上。如果客户端在集群外,随机选一个。
第二个副本和第一个副本位于相同机架,随机节点。
第三个副本位于不同机架,随机节点。
启用Hadoop机架感知的功能,配置非常简单,在NameNode所在机器的hadoop-site.xml
配置文件中配置一个选项:
<property>
<name>topology.script.file.name</name>
<value>/path/to/RackAware.py</value>
</property>
这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台DataNode机器的ip地址,而输出的值通常为该ip地址对应的DataNode所在的rack。NameNode启动时,会判断该配置选项是否为空,如果非空,则表示已经用机架感知的配置,此时NameNode会根据配置寻找该脚本并在接收到每一个DataNode的heartbeat时,将该DataNode的ip地址作为参数传给该脚本运行,并将得到的输出作为该DataNode所属的机架,保存到内存的一个map中。通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下:
#!/usr/bin/python
#-*-coding:UTF-8 -*-
import sys
rack = {"hadoopnode-176.tj":"rack1",
"hadoopnode-178.tj":"rack1",
"hadoopnode-179.tj":"rack1",
"hadoopnode-180.tj":"rack1",
"hadoopnode-186.tj":"rack2",
"hadoopnode-187.tj":"rack2",
"hadoopnode-188.tj":"rack2",
"hadoopnode-190.tj":"rack2",
"192.168.1.15":"rack1",
"192.168.1.17":"rack1",
"192.168.1.18":"rack1",
"192.168.1.19":"rack1",
"192.168.1.25":"rack2",
"192.168.1.26":"rack2",
"192.168.1.27":"rack2",
"192.168.1.29":"rack2",
}
执行命令:chmod +x RackAware.py