HDFS的机架感知策略

最新推荐文章于 2024-05-07 09:48:41 发布

谭金刚

最新推荐文章于 2024-05-07 09:48:41 发布

阅读量1.6k

点赞数

分类专栏： Hadoop

原文链接：http://www.cnblogs.com/gslyyq/

版权

Hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机架感知是一种计算不同计算节点（TT）的距离的技术，用以在任务调度过程中尽量减少网络带宽资源的消耗，这里用尽量，想表达的是当一个TT申请不到本地化任务时，JT会尽量调度一个机架的任务给他，因为不同机架的网络带宽资源比同一个机架的网络带宽资源更可贵。当然，机架感知不仅仅用在MR中，同样还用在HDFS数据块备份过程中（第一个replica选择本节点【如果上传是DataNode】或者随机的一个DN（系统会尽量避免存储太满和太忙的节点），第二个节点选择于第一个节点不同机架的DN，第三个选择放在第二个DN同一个机架的另一个DN上）
默认情况下，hadoop的机架感知是没有被启用的。所以，在通常情况下，hadoop集群的HDFS在选机器的时候，是随机选择的，也就是说，很有可能在写数据时，hadoop将第一块数据block1写到了rack1上，然后随机的选择下将block2写入到了rack2下，此时两个rack之间产生了数据传输的流量，再接下来，在随机的情况下，又将block3重新又写回了rack1，此时，两个rack之间又产生了一次数据流量。在job处理的数据量非常的大，或者往hadoop推送的数据量非常大的时候，这种情况会造成rack之间的网络流量成倍的上升，成为性能的瓶颈，进而影响作业的性能以至于整个集群的服务。
要将hadoop机架感知的功能启用，配置非常简单，在namenode所在机器的hadoop-site.xml配置文件中配置一个选项：

<property>
  <name>topology.script.file.name</name>
  <value>/path/to/RackAware.py</value>
</property

这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为某台datanode机器的ip地址，而输出的值通常为该ip地址对应的datanode所在的rack，例如”/rack1”。Namenode启动时，会判断该配置选项是否为空，如果非空，则表示已经用机架感知的配置，此时namenode会根据配置寻找该脚本，并在接收到每一个datanode的heartbeat时，将该datanode的ip地址作为参数传给该脚本运行，并将得到的输出作为该datanode所属的机架，保存到内存的一个map中。
至于脚本的编写，就需要将真实的网络拓朴和机架信息了解清楚后，通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下：

#!/usr/bin/python  
#-*-coding:UTF-8 -*-  
import sys  

rack = {"hadoopnode-176.tj":"rack1",  
      "hadoopnode-178.tj":"rack1",  
      "hadoopnode-179.tj":"rack1",  
      "hadoopnode-180.tj":"rack1",  
      "hadoopnode-186.tj":"rack2",  
      "hadoopnode-187.tj":"rack2",  
      "hadoopnode-188.tj":"rack2",  
      "hadoopnode-190.tj":"rack2",  
      "192.168.1.15":"rack1",  
      "192.168.1.17":"rack1",  
      "192.168.1.18":"rack1",  
      "192.168.1.19":"rack1",  
      "192.168.1.25":"rack2",  
      "192.168.1.26":"rack2",  
      "192.168.1.27":"rack2",  
      "192.168.1.29":"rack2",  
      }  
      
if __name__=="__main__":  
  print "/" + rack.get(sys.argv[1],"rack0")

参考：https://www.cnblogs.com/gslyyq/p/4104433.html
https://www.cnblogs.com/ggjucheng

谭金刚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS的机架感知策略

机架感知是一种计算不同计算节点（TT）的距离的技术，用以在任务调度过程中尽量减少网络带宽资源的消耗，这里用尽量，想表达的是当一个TT申请不到本地化任务时，JT会尽量调度一个机架的任务给他，因为不同机架的网络带宽资源比同一个机架的网络带宽资源更可贵。当然，机架感知不仅仅用在MR中，同样还用在HDFS数据块备份过程中（第一个replica选择本节点【如果上传是DataNode】或者随机的一个DN（...
复制链接

扫一扫