spark streaming 消费kafka出现OffsetOutOfRangeException异常

最新推荐文章于 2024-04-23 10:33:25 发布

置顶铁木匠

最新推荐文章于 2024-04-23 10:33:25 发布

阅读量3.4k

点赞数

分类专栏：大数据相关技术解决方案 spark 文章标签：大数据 kafka spark

本文链接：https://blog.csdn.net/qq_16220645/article/details/106019807

版权

大数据相关技术解决方案同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

一、相关主要组件说明
1、spark 版本2.4.3
2、kafka 版本0.10
3、scala 版本2.11
4、通过redis手动维护kafka的offset
二、出现的异常如下

org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {logs.topic.records-50=3709}
        at org.apache.kafka.clients.consumer.internals.Fetcher.parseCompletedFetch(Fetcher.java:970)
        at org.apache.kafka.clients.consumer.internals.Fetcher.fetchedRecords(Fetcher.java:490)
        at org.apache.kafka.clients.consumer.KafkaConsumer.pollForFetches(KafkaConsumer.java:1259)
        at org.apache.kafka.clients.consumer.KafkaConsumer.poll(KafkaConsumer.java:1187)
        at org.apache.kafka.clients.consumer.KafkaConsumer.poll(KafkaConsumer.java:1115)
        at org.apache.spark.streaming.kafka010.InternalKafkaConsumer.poll(KafkaDataConsumer.scala:200)
        at org.apache.spark.streaming.kafka010.InternalKafkaConsumer.get(KafkaDataConsumer.scala:129)
        at org.apache.spark.streaming.kafka010.KafkaDataConsumer$class.get(KafkaDataConsumer.scala:36)
        at org.apache.spark.streaming.kafka010.KafkaDataConsumer$NonCachedKafkaDataConsumer.get(KafkaDataConsumer.scala:218)
        at org.apache.spark.streaming.kafka010.KafkaRDDIterator.next(KafkaRDD.scala:261)
        at org.apache.spark.streaming.kafka010.KafkaRDDIterator.next(KafkaRDD.scala:229)
        at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:463)
        at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:390)
        at scala.collection.Iterator$class.foreach(Iterator.scala:891)
        at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
        at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)
        at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)
        at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)
        at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)
        at scala.collection.AbstractIterator.to(Iterator.scala:1334)
        at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)
        at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1334)
        at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)
        at scala.collection.AbstractIterator.toArray(Iterator.scala:1334)
        at org.apache.spark.rdd.RDD$$anonfun$take$1$$anonfun$29.apply(RDD.scala:1364)
        at org.apache.spark.rdd.RDD$$anonfun$take$1$$anonfun$29.apply(RDD.scala:1364)
        at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2101)
        at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2101)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
        at org.apache.spark.scheduler.Task.run(Task.scala:121)
        at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
        at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)

三、分析及解决方案
这是kafka topic partition的offset越界异常，由于我们的方案是采用通过redis来保存kafka partition的offset，业务处理完后再将offset更新到redis中；首先先确定kafka集群log file的保存时间(默认是7*24小时)是否被修改；

# The minimum age of a log file to be eligible for deletion due to age
log.retention.hours=168

由于我们kafka集群log file保存时间修改成了3*24小时，而消费多个topic中的数据，然而由于某个topic数据量比较小，partition的数量又很多，存在该topic中的某个partition很长时间没有新的offset；而恰恰又到了log file最后保存期限，这个时候redis对应topic的这个partition的offset再次读取kafka中的数据时，就会出现offset尾越界问题。
简单有效的解决方案：利用redis key的过期时间，key的设置要精确到topic的partition,例如redisTemplate.opsForValue().set(group id + topic + partition, offset,71, TimeUnit.HOURS); key的设置过期时间要在kafka log file过期时间之前过期；

你的鼓励是我分享技术最大的动力！如有错误之处，请指正，不胜感激。

铁木匠

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark streaming 消费kafka出现OffsetOutOfRangeException异常

一、相关主要组件说明1、spark 版本2.4.32、kafka 版本0.103、scala 版本2.114、通过redis手动维护kafka的offset二、出现的异常如下org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {logs.topic.records-50=3709}
复制链接

扫一扫