Hadoop机架感知

最新推荐文章于 2023-03-27 10:49:04 发布

K. Bob

最新推荐文章于 2023-03-27 10:49:04 发布

阅读量940

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/ThreeAspects/article/details/108673381

版权

Hadoop 专栏收录该内容

20 篇文章 2 订阅

订阅专栏

Hadoop的机架感知旨在确保数据安全性与传输效率，通过配置将数据块副本分布在不同机架以防止单一故障导致数据丢失。NameNode根据预设的机架信息在分配Block时执行特定策略。早期版本的副本策略包括首选Client所在节点，然后选择不同机架的DataNode。启用机架感知需在NameNode配置文件中设置脚本，该脚本将DN IP映射到对应机架。

摘要由CSDN通过智能技术生成

出于保证数据安全性和数据传输的高效性的平衡考虑，HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内，而不是跨机架和跨机房。同时，NameNode 在分配 Block 的存储位置的时候，会尽可能把数据块的副本放到多个机架甚至机房中，防止机架出现事故或者机房出现事故时候的数据丢失问题发生。
这就是 HDFS 的机架感知，首先机房和机架的信息是需要用户自己配置的，Hadoop对机架的感知并非是自适应的，而是需要人为的告知Hadoop哪台机器属于哪个机架，这样在Hadoop的NameNode启动初始化时，会将这些机器与机架的对应信息保存在内存中，用来作为对接下来所有的HDFS的写块操作分配DataNode列表时（比如3个block对应三台DataNode）的选择DataNode策略，做到Hadoop allocate block的策略：尽量将三个副本分布到不同的机架。，然后根据配置的信息，NameNode 会有如下的副本放置策略：
（低版本 Hadoop 副本节点选择）
首先挑选跟HDFS Client同一节点的DataNode作为存储第一个Block副本的位置，假如HDFS Client不在任何一个DataNode上，那么随便选择一个DataNode。其次，会借助NameNode的机架感知特征，选择跟第一个Block副本地点DataNode不同的机架上的任意一个DataNode来存储Block的第二个副本，比如说/rack2。Block的第三个副本也会存在这个/rack2上，可以是是别的一个DataNode。
（Hadoop2.7.2 副本节点选择）
第一个副本在 client 所处的节点上。如果客户端在集群外，随机选一个。
第二个副本和第一个副本位于相同机架，随机节点。
第三个副本位于不同机架，随机节点。在这里插入图片描述

启用Hadoop机架感知的功能，配置非常简单，在NameNode所在机器的hadoop-site.xml配置文件中配置一个选项：

<property>
<name>topology.script.file.name</name>
<value>/path/to/RackAware.py</value>
</property>

这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为某台DataNode机器的ip地址，而输出的值通常为该ip地址对应的DataNode所在的rack。NameNode启动时，会判断该配置选项是否为空，如果非空，则表示已经用机架感知的配置，此时NameNode会根据配置寻找该脚本并在接收到每一个DataNode的heartbeat时，将该DataNode的ip地址作为参数传给该脚本运行，并将得到的输出作为该DataNode所属的机架，保存到内存的一个map中。通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下：

#!/usr/bin/python 
#-*-coding:UTF-8 -*- 
import sys  
rack = {"hadoopnode-176.tj":"rack1", 
        "hadoopnode-178.tj":"rack1", 
        "hadoopnode-179.tj":"rack1", 
        "hadoopnode-180.tj":"rack1", 
        "hadoopnode-186.tj":"rack2", 
        "hadoopnode-187.tj":"rack2", 
        "hadoopnode-188.tj":"rack2", 
        "hadoopnode-190.tj":"rack2", 
        "192.168.1.15":"rack1", 
        "192.168.1.17":"rack1", 
        "192.168.1.18":"rack1", 
        "192.168.1.19":"rack1", 
        "192.168.1.25":"rack2", 
        "192.168.1.26":"rack2", 
        "192.168.1.27":"rack2", 
        "192.168.1.29":"rack2", 
        }

执行命令：chmod +x RackAware.py

K. Bob

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop机架感知

出于保证数据安全性和数据传输的高效性的平衡考虑，HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内，而不是跨机架和跨机房。同时，NameNode 在分配 Block 的存储位置的时候，会尽可能把数据块的副本放到多个机架甚至机房中，防止机架出现事故或者机房出现事故时候的数据丢失问题发生。这就是 HDFS 的机架感知，首先机房和机架的信息是需要用户自己配置的，Hadoop对机架的感知并非是自适应的，而是需要人为的告知Hadoop哪台机器属于哪个机架，这样在Hadoop的NameNode启动初始
复制链接

扫一扫

专栏目录