今天遇到一个问题,就是kafka生产端生产的数据很快,消费的时候也很快,但是处理业务的时候比较慢,导致了程序抛异常:
org.apache.kafka.clients.consumer.internals.AbstractCoordinator
这个是因为,kafka消费端 poll数据的时候一次poll数据太多,在做逻辑处理的时候在很长时间都没有处理完成,导致下一次poll的时间太长,超出了消费者和broker联系的心跳时间(消费端调用poll方法的时候回进行一次心跳),超出这个心跳时间,broker就会认为这个消费者挂了,所以就会抛出上面的异常,并且对消费者通过算法重新rebalance。
解决方法:
1.可以将消费者和broker的session时间调长一点,就是调节session.timeout.ms(默认10秒)这个属性,一般这个属性和heartbeat.interval.ms(默认3秒)这个属性一起调节,其中heartbeat.interval.ms一般是session.timeout.ms的三分之一,并且session.timeout.ms在group.min.session.timeout.ms(默认6秒)和group.max.session.timeout.ms(默认30秒)范围之间。
2.将max.partition.fetch.bytes( 1048576bytes 就是1M)和max.poll.records(500条)调节小一点,max.partition.fetch.bytes就是poll拉取的消息最大容量,max.poll.records(默认500条,版本不一样默认也不一样,有的版本默认2147483647条,相差还是挺大的)这个就是一次消费者端poll最大数据量(条数),如果不设置默认会造成单次拉取数据过多,造成业务处理延迟,心跳时间过长,导致抛异常,其中这个配置在 0.10版本后才有效。
3.用consumer.pause() 和 consumer.resume() 来控制,当调用pause之后 poll的时候就不会返回值,当调用resume之后 poll才会返回值,不过没去测试。