今天来公司发现hadoop集群出现了HDFS DataNode堆内存使用率超过阈值的告警,然后查看集群各个节点的状态发现有一个数据节点宕机了,经过一上午的处理我来聊聊解决的几个方法:
目录:
1、将HDFS备份数降低
2、删除无用HDFS数据和Hbase表格
3、设置kafka的日志时间
4、删除本机无用文件
5、清理Trash回收站
6、Balancer重新平衡
1、将备份数降低
1)将默认的备份数3设置为2。
步鄹:CDH–>HDFS–>配置–>复制因子–>设置为2
2)执行命令: hadoop fs -setrep 2 path(记住为根目录 / )
3)重启hdfs
4)结果如下:
2、删除无用HDFS数据和Hbase表格
查看HDFS上面文件每个文件大小
hdfs dfs -du -h /
1
可以删除的文件
hdfs dfs -du -h /user/spark/applicationHistory
hdfs dfs -rmr /user/root/.Trash
3、设置kafka的日志时间
1、先查看所有的topic
kafka-topics.sh --list --zookeeper node1:2181
zookeeper的端口号和名称自行修改,端口号写错会报错
[2018-08-30 11:09:09,297] WARN Session 0x0 for server null, unexpect