问题描述:对hadoop 集群移除节点,单次移除的节点太多,而集群已有数据量太大,导致移除节点后,容量不够。
集群一直显示Decommission in progress.等待了一天还是这样。
由于数据比较关键,怕丢失,不敢操作,网上查询没有相关的资料,最后不得已,强制恢复节点,重新加载配置,步骤如下:
1. 查看文件状态,是否被损坏
用./hdfs fsck / -blocks -locations -files
结果显示corrupt
2. https://blog.csdn.net/lingbo229/article/details/81128316
hdfs fsck -list-corruptfileblocks
结果显示“The filesystem under path '/' has 0 CORRUPT files”
1和2的结果令人头大,一个显示corrupt,一个显示corrupt文件为0,没办法了,执行步骤3,强制恢复节点(注意,需要参考另外一个博文,将excludes文件中的信息删除,也就是执行恢复节点操作)
3. 恢复节点,强制重新加载配置
[ws@master hadoop]# ./bin/hadoop dfsadmin -refreshNodes