现象及排查
1.首先是CDH集群中主节点master服务器爆红提示/根目录磁盘空间不足,但是一时之间反应不起来是哪个应用程序导致,所以最简单的就是到根目录下进行排除
2. cd / 然后使用du -h 大致浏览一遍发现所以占用空间加起来不足20%磁盘空间。
所以改变排查方向
lsof |grep deleted > deleted_file查看有哪些未被释放的文件
把信息保存后进行排序查看
排序看最大的未被释放的文件大小,命令:sort -nr -k 8 deleted_file>sort_deleted_file
然后发现 /opt/bigdata/software/kafka-eagle/kms/log/catalina.out 的占用空间比较大
发现这是kafka监控组件的日志文件一直写入到同一个文件导致无法释放磁盘空间。
解决办法
1.首先停止该kafka-eagle应用发现磁盘得到释放
2.修改应用日志配置
为了避免后续继续出现该情况查看其log配置文件发现 该日志文件配置等级比较低 debug级别导致大量日志产生 调整为SEEROR 只保留error级别的日志即可
重启后发现磁盘空间得到释放,集群也不再爆红。