Hadoop HA自动故障转移&频繁启动问题解决

GaryLea

已于 2022-05-27 17:31:05 修改

阅读量1k

点赞数

文章标签： hadoop hdfs big data

于 2022-05-09 11:09:42 首次发布

本文链接：https://blog.csdn.net/li_g_yuan/article/details/124661759

版权

背景

之前博客中有讲怎么配置hadoop的HA，在工作中，我因要进行数据治理组件的探究，所以需要部署一个测试集群来测试一下数据治理相关组件的集成，可能是因为测试集群比生产环境的配置要低，所以遇到了之前没有遇到的问题，比如HA配置后，NN一直频繁切换, 这个现象就是hadoop的脑裂

自动故障转移配置

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<!--  配置自动故障转移 -->
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>

频繁切换问题解决

首先尝试关掉一个NN，然后等NN稳定后再启动另一台NN
如果不行，进行配置文件修改

vim $HADOOP_HOME/etc/hadoop/core-site.xml
<!-- 调整ZKFC自动检测时长，防止频繁切换nn -->
<property>
    <name>ha.health-monitor.rpc-timeout.ms</name>
    <value>120000</value>
</property>

如果还是不行，有一个强制的方法

kill -9 其中一台namenode，然后等一会再重启那台namenode

频繁切换的原因

可能是集群配置较低，使用默认配置时，ZKFC的健康检查超时时长不足以支撑NN的正常启动，此时NN被ZKFC认为没有正常启动，因此会采用自动故障转移来启动另外一台NN，从而引起自动切换active NN

总结

开发中所有东西都不是一成不变，需要我们仔细探究原因

GaryLea

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫