1、现象:
总共10台机器,其中2台机器磁盘使用率达到80%以上,其他机器使用率不到60%。通过du -sh查看,发现是2台机器的hdfs文件比较大。
想通过删除hive里面在大数据表,来降低磁盘使用率,发现其他机器的磁盘使用率有所下降,但是这两台问题的结点不降反升(有实时数据写入)。这时怀疑是hdfs文件系统有问题。
2、处理方式一:
通过启动Balancer来平衡各个节点的文件存储。
启动Balancer sbin/start-balancer.sh
也是没有效果。
3、处理方式二
这时通过查询datanode节点的日志,发现datanode连接namenode超时,拒绝连接。
1)杀datanode进程
kill -9 datanode进程号
2)在有问题的两个结点后,启动datanode
sbin/yarn-daemon.sh start datanode
结论:
重启datanode结点后,2台机器的磁盘使用率逐渐恢复正常。