KafkaConsumer 抛出KafkaConsumer is not safe for multi-threaded

最新推荐文章于 2024-04-21 11:36:22 发布

NeverKnowPig

最新推荐文章于 2024-04-21 11:36:22 发布

阅读量4.5k

点赞数 1

分类专栏： spark-kafk 文章标签：异常 access kafka-消息发布与订阅 spark

本文链接：https://blog.csdn.net/NeverKnowPig/article/details/78460031

版权

spark-kafk 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

KafkaConsumer 抛出KafkaConsumer is not safe for multi-threaded access异常

环境：spark-2.x kafka_0.10.x

异常：

java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access
    at org.apache.kafka.clients.consumer.KafkaConsumer.acquire(KafkaConsumer.java:1431)
    at org.apache.kafka.clients.consumer.KafkaConsumer.seek(KafkaConsumer.java:1132)
    at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.seek(CachedKafkaConsumer.scala:95)
    at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:69)
    at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:227)
    at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:193)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
	at org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:364)
	at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:1021)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:996)
    at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:936)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:996)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:700)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:334)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:285)
    at org.apache.spark.rdd.UnionRDD.compute(UnionRDD.scala:105)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.rdd.UnionRDD.compute(UnionRDD.scala:105)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

异常分析：

当kafka执行rebalance时，kafka可能抛出此异常。

confluent存在两种worker：
    1.负责数据读写的source／sink worker；
    2.负责协调source/sink worker的herder worker；
当rebalance发生时，herder会去主动close sink worker线程。如果sink worker正在操作就会抛出异常。
当代码中的slideDuration比batchDuration大很多时也会抛出异常：java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

解决思路：

1.对使用window操作的DStream在调用window之前先调用checkpoint方法，可以截断lineage，从而避免这个问题。
2.修改slideDuration和batchDuration，使得两个的值很相近

NeverKnowPig

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
8
评论
KafkaConsumer 抛出KafkaConsumer is not safe for multi-threaded

KafkaConsumer 抛出KafkaConsumer is not safe for multi-threaded access异常
复制链接

扫一扫