【Hadoop】节点的上线、下线


本章节主要介绍Hadoop运维管理中节点的上、下线

一、下线
运维过程中,遇到最多的就是某几个节点磁盘坏掉、磁盘满、机器宕机等情况导致某些任务执行失败,如果只是一个节点故障,并无大碍,因为一般任务有3次重试到其他节点的机会。但如果有很多节点同时故障,那就要优先考虑下线掉这些故障节点,以避免任务container再次被分配到该节点。

1. 修改active、standby节点的dfs.exclude

--hdfs-site.xml配置(下线对应的datanode存储)
<property>
   <!-- 允许连接到HDFS的主机列表 -->
     <name>dfs.hosts.exclude</name>
     <value>/etc/hadoop/conf/dfs.exclude</value>
   </property>

   echo "core-6e9daba-1.novalocal" >> /etc/hadoop/conf/dfs.exclude
--yarn-site.xml配置(下线对应的yarn调度)
<property>
     <name>yarn.resourcemanager.nodes.exclude-path</name>
     <value>/etc/hadoop/conf/yarn.exclude</value>
   </property>

echo “下线节点hostname” >> /etc/hadoop/conf/dfs.exclude
echo “下线节点hostname” >> /etc/hadoop/conf/yarn.exclude

2.刷新slave文件
slaves文件里面记录的是集群里所有DataNode的主机名,这相当于是一份对于DN的白名单,只有在白名单里面的主机才能被NN识别

 --hdfs-site.xml配置(下线对应的datanode存储)
<property>
    <!-- 阻止连接到HDFS的主机列表 -->
      <name>dfs.hosts</name>
      <value>/etc/hadoop/conf/slave</value>
</property>

修改active、standby节点的hadoop/etc/hadoop/slave文件
修改后NN就拒绝了那个被删除了的DN数据,而NN会自动把DN上丢失的数据重新备份

3. 刷新节点

仅在active节点执行
[hdfs@aa2 ~]$ hdfs dfsadmin -refreshNodes
[hdfs@aa2 ~]$ hdfs dfsadmin -report
[hdfs@aa2 ~]$ yarn rmadmin -refreshNodes

下线前

在这里插入图片描述

 

下线后

在这里插入图片描述

 

如果情况紧急,只是想暂时性的让某些节点不再调度任务,可以直接关闭该节点的nodemanager

切换yarn用户
sh yarn-daemon.sh stop nodemanager

二、上线
上线步骤和下线步骤正好相反。简单描述如下:

第一步:去掉 /etc/hadoop/conf/dfs.exclude 、/etc/hadoop/conf/yarn.exclude中对应的节点
第二步:将要上线的节点添加到两个节点的dfs.hosts中的slave文件中
第三步:仅在active节点执行
[hdfs@aa ~]$ hdfs dfsadmin -refreshNodes
[hdfs@aa ~]$ hdfs dfsadmin -report
[hdfs@aa ~]$ yarn rmadmin -refreshNodes
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值