由于使用structured streaming +kafka 处理数据,任务运行一段时间后就会出现Kafka数据无法消费,任务运行正常,但是从日志中看到This member will leave the group 。。。的输出。由于是structured streaming做的,所以在设置Kafka参数时,在任务中是否生效,在测试,所以先记录一下,预知下文如何,且看下次分解。
1,consumer poll一次数据,处理时间过长,第二次consumer poll又来了
kafka消费端 poll数据的时候一次poll数据太多,由于是structured streaming做的流处理,在数据业务逻辑的处理与数据输出到数据库的原因,处理的时间有点长。导致一批数据处理完成的周期较长,导致下一次poll的时间太长,超出了消费者和broker联系的心跳时间(消费端调用poll方法的时候回进行一次心跳),超出这个心跳时间,broker就会认为这个消费者挂了,所以就会抛出上面的异常,并且对消费者通过算法重新rebalance。
2020-03-15 16:47:32 WARN AbstractCoordinator:[Consumer clientId=consumer-1, groupId=spark-kafka-source-f1681175-3b4f-414a-926e-6dbdd1d39656--1373084301-driver-0] This member will leave the group because consumer poll timeout has expired. This means the time between subsequent calls to poll() was