Hadoop机架感知

  出于保证数据安全性和数据传输的高效性的平衡考虑,HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架和跨机房。同时,NameNode 在分配 Block 的存储位置的时候,会尽可能把数据块的副本放到多个机架甚至机房中,防止机架出现事故或者机房出现事故时候的数据丢失问题发生。
  这就是 HDFS 的机架感知,首先机房和机架的信息是需要用户自己配置的,Hadoop对机架的感知并非是自适应的,而是需要人为的告知Hadoop哪台机器属于哪个机架,这样在Hadoop的NameNode启动初始化时,会将这些机器与机架的对应信息保存在内存中,用来作为对接下来所有的HDFS的写块操作分配DataNode列表时(比如3个block对应三台DataNode)的选择DataNode策略,做到Hadoop allocate block的策略:尽量将三个副本分布到不同的机架。,然后根据配置的信息,NameNode 会有如下的副本放置策略:

  • 第一个 block 副本放在 Client 所在的服务器,如果 client 不在集群服务器中,则这第一个 DataNode 会随机选择
  • 第二个副本放置在与第一个节点不同的机架中的节点中,保证机架间的高可用
  • 第三个有不同机房则跨机房随机放置在某个节点上;只有一个机房则和第二副本在同一个机架,随机放在不同的节点中
    在这里插入图片描述

  启用Hadoop机架感知的功能,配置非常简单,在NameNode所在机器的hadoop-site.xml配置文件中配置一个选项:

<property>
<name>topology.script.file.name</name>
<value>/path/to/RackAware.py</value>
</property>

这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台DataNode机器的ip地址,而输出的值通常为该ip地址对应的DataNode所在的rack。NameNode启动时,会判断该配置选项是否为空,如果非空,则表示已经用机架感知的配置,此时NameNode会根据配置寻找该脚本并在接收到每一个DataNode的heartbeat时,将该DataNode的ip地址作为参数传给该脚本运行,并将得到的输出作为该DataNode所属的机架,保存到内存的一个map中。通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下:

#!/usr/bin/python 
#-*-coding:UTF-8 -*- 
import sys  
rack = {"hadoopnode-176.tj":"rack1", 
        "hadoopnode-178.tj":"rack1", 
        "hadoopnode-179.tj":"rack1", 
        "hadoopnode-180.tj":"rack1", 
        "hadoopnode-186.tj":"rack2", 
        "hadoopnode-187.tj":"rack2", 
        "hadoopnode-188.tj":"rack2", 
        "hadoopnode-190.tj":"rack2", 
        "192.168.1.15":"rack1", 
        "192.168.1.17":"rack1", 
        "192.168.1.18":"rack1", 
        "192.168.1.19":"rack1", 
        "192.168.1.25":"rack2", 
        "192.168.1.26":"rack2", 
        "192.168.1.27":"rack2", 
        "192.168.1.29":"rack2", 
        } 

执行命令:chmod +x RackAware.py

©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页