HDFS源码分析(四)-----节点Decommission机制

最新推荐文章于 2024-07-12 21:56:23 发布

Android路上的人

最新推荐文章于 2024-07-12 21:56:23 发布

阅读量8k

点赞数 2

分类专栏： Hadoop HDFS HDFS源码分析文章标签： hadoop 分布式文件系统 hdfs

本文链接：https://blog.csdn.net/Androidlushangderen/article/details/47788227

版权

前言

在Hadoop集群中，按照集群规模来划分，规模可大可小，大的例如百度，据说有4000台规模大小的Hadoop集群，小的话，几十台机器组成的集群也都是存在的。但是不论说是大型的集群以及小规模的集群，都免不了出现节点故障的情况，尤其是超大型的集群，节点故障几乎天天发生，因此如何做到正确，稳妥的故障情况处理，就显得很重要了，这里提供一个在Hadoop集群中可以想到的办法，就是Decommission操作，节点下线操作，一般的情况是故障节点已经是一个dead节点，或是出现异常情况的节点。此时如若不处理，或许会影响到整个集群的性能。所以在这里分享一下Hadoop中的Decommision机制。

Hadoop节点Decommision操作

在分析相关源码之前，有必要了解一下，让一个数据节点下线的物理操作，操作步骤其实很简单，在以前老版本的Hadoop中，好像是可以通过hadoop dfsadmin带参数的形式执行，但是在最近新版的Hadoop中好像这类命令失效了，于是我在做测试的时候，用了一个更通用的办法来触发这一行为，就是把目标下线节点加入execlude文件中，就是拒绝接入Hadoop集群的节点名单，姑且可以理解为黑名单列表，对应的是include名单，默认这2个名单都没配，所以数据节点一启动，就会注册到namenode节点上。然后是再执行Hadoop 的refreshnode命令，此命令就会从对应的此配置文件中读取最新的数据节点信息，然后开始decommission操作，在50070的ui界面上就可以看到待下线节点的状态会从active状态变为decommision in progress，此时此数据节点的block将会被逐步的拷贝出去，最后随着操作的完成，最终状态就会被变为decommissioned，此时就可以正式下线此节点，用hadoop-demons.sh namenode stop即可。在执行过程的前后，可以执行hadoop fsck的方法观察block块的路径，判断block拷贝情况。

Decommision代码跟踪分析

在物理操作中，decommision操作的触发是因为添加了execlude文件，然后再输入refreshNode命令开始的，与此就会对应到了FSNamesystem的同名方法

/**
   * Rereads the config to get hosts and exclude list file names.
   * Rereads the files to update the hosts and exclude lists.  It
   * checks if any of the hosts have changed states:
   * 1. Added to hosts  --> no further work needed here.
   * 2. Removed from hosts --> mark AdminState as decommissioned. 
   * 3. Added to exclude --> start decommission.
   * 4. Removed from exclude --> stop decommission.
   * 重新从配置中读取节点列表,移除掉准备下线的列表等
   */
  public void refreshNodes(Configuration conf) throws IOException {
    checkSuperuserPrivilege();
    // Reread the config to get dfs.hosts and dfs.hosts.exclude filenames.
    // Update the file names and refresh internal includes and excludes list
    if (conf == null)
      conf = new Configuration();
    //重新读取配置文件中的dfs.hosts以及dfs.hosts.exclude属性
    hostsReader.updateFileNames(conf.get("dfs.hosts",""), 
                                conf.get("dfs.hosts.exclude", ""));
    hostsReader.refresh();
....

果然在这里会重

最低0.47元/天解锁文章

Android路上的人

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
HDFS源码分析(四)-----节点Decommission机制

前言在Hadoop集群中，按照集群规模来划分，规模可大可小，大的例如百度，据说有4000台规模大小的Hadoop集群，小的话，几十台机器组成的集群也都是存在的。但是不论说是大型的集群以及小规模的集群，都免不了出现节点故障的情况，尤其是超大型的集群，节点故障几乎天天发生，因此如何做到正确，稳妥的故障情况处理，就显得很重要了，这里提供一个在Hadoop集群中可以想到的办法，就是Decommission
复制链接

扫一扫