一、背景:
在维护paas云平台的过程遇见了一个kafak集群运行失败问题,详细问题描述如下:
二、问题分析:
kafka集群运行报错,并且服务是跑不起来的,重启了好几次也是一样的,报错内容如下:
ERROR Error while writing to checkpoint file /kafka-logs/kafka/MX000014000042002-6/leader-epoch-checkpoint (kafka.server.LogDirFailureChannel)
根据日志提示内容是写入数据到/kafka-logs/kafka/MX000014000042002-6/leader-epoch-checkpoint 文件过程中存在问题,导致无法写入,根据提示第一个想到的是不是kafka集群所绑定的pvc存储爆满了导致的,就去查看pvc存储使用情况。后面发现确实是pvc存储的空间满了导致的,
三、问题处理:
根据上面的原因,只需要将kafka绑定的pvc存储空间扩容一下就可以了。这里是通过后端的方式将pvc存储大小扩容了。
总结:
这是工作中遇见的一个kafka集群运行的问题,可以帮助到大家!!