问题描述
清早实施说硬件上报数据有问题。
问题处理
打算登上服务查看接入服务是否有问题;
使用finalShell连接后,发现终端卡死;
顶着卡顿,top 一下,shift+P 查看CPU占用,发现两个进程直接占用100%,打死CPU。
ps -ef|grep 进程号 发现kafka服务和接入服务占用很大;
防止kafka未设置停止再启动服务恢复配置,先停接入服务;
查看接入服务日志,3月1号后日志有大量增加,3月1号实施重启过接入服务;
查看实时日志,清一色,kafka disconnect;
卡顿好一点,看一下kafka 的server.properties 查看服务auto.offset.reset 是有配置的。
业务方面,设备的实时数据会随时上报不用担心,设备基础信息,重启后对不上可从3月1号的数据重新上报;
先停止kafka服务,终端太卡了;
查看kafka日志,broker 没有问题;自动平衡没问题;
定为连接数,重新启动后发现连接数是470;
kafka版本为3.5.0,配置并没有设置最大连接数。
那接入就是一直尝试连接kafka,导致连接数超载?
没法复现;
重启解决;
结论,没有问题;
备注
无法定为详细问题,有相同经历的同学,可以告知一下。已知broker 没问题;服务多次重启后,为什么会打光kafka的可用连接;