背景
报警得知2台机器宕机,推测是IDC同事在处理之前的报修。一台是系统盘故障,12块数据盘正常。一台是某块数据盘损坏。两台机器宕机时间相差不大,副本未自动补偿完毕,导致有27个block丢失,发生Block Missing,若干新旧文件发生corrupt。
解决方案
- 获得missing block列表,通过namenode即可获得。
- 通过ramos进入系统盘损坏的机器,将全部的missing block找到,依照原目录打包。
- 将上述文件拷贝至新机器,恢复正常目录结构,并部署和启动datanode。
- 稍等片刻,跟踪新节点日志,并执行fsck