structured streaming+kafka 异常处理

最新推荐文章于 2021-09-03 19:13:49 发布

嘘、不语

最新推荐文章于 2021-09-03 19:13:49 发布

阅读量1.5k

点赞数

分类专栏： kafka

本文链接：https://blog.csdn.net/Angel_Shura/article/details/104965790

版权

在使用Structured Streaming与Kafka处理数据时，可能出现由于数据处理时间过长导致消费者心跳超时的问题。这会造成消费者离开群组并触发重新平衡。解决方案包括增大`max.poll.interval.ms`或减少`max.poll.records`。此外，还应考虑调整`session.timeout.ms`、`heartbeat.interval.ms`等参数，以确保它们之间合理配合。注意，参数调整需根据数据量、处理速度及系统资源进行实验确定。同时，自动提交设置`auto.commit.interval.ms`和offset重置策略`auto.offset.reset`也会影响消费者行为。

摘要由CSDN通过智能技术生成

由于使用structured streaming +kafka 处理数据，任务运行一段时间后就会出现Kafka数据无法消费，任务运行正常，但是从日志中看到This member will leave the group 。。。的输出。由于是structured streaming做的，所以在设置Kafka参数时，在任务中是否生效，在测试，所以先记录一下，预知下文如何，且看下次分解。

1，consumer poll一次数据，处理时间过长，第二次consumer poll又来了

kafka消费端 poll数据的时候一次poll数据太多，由于是structured streaming做的流处理，在数据业务逻辑的处理与数据输出到数据库的原因，处理的时间有点长。导致一批数据处理完成的周期较长，导致下一次poll的时间太长，超出了消费者和broker联系的心跳时间（消费端调用poll方法的时候回进行一次心跳），超出这个心跳时间，broker就会认为这个消费者挂了，所以就会抛出上面的异常，并且对消费者通过算法重新rebalance。

2020-03-15 16:47:32 WARN AbstractCoordinator:[Consumer clientId=consumer-1, groupId=spark-kafka-source-f1681175-3b4f-414a-926e-6dbdd1d39656--1373084301-driver-0] This member will leave the group because consumer poll timeout has expired. This means the time between subsequent calls to poll() was