需求:
在使用sparkstreaming消费kafka的topic时,对offset进行管理
网上资料比较少,而且参差不齐
管理的方法也有很多,区别主要在于offset存储在哪里,不同的存储位置意味着不同的存储以及读取方法
本篇博客主要记录一下
如何通过kafka.consumer.SimpleConsumer这个类对offset进行存储和读取
这个类是将offset存储于kafka内部的一个特殊的topic: __consumer_offsets 中
代码如下
package main.scala
import kafka.api.{OffsetCommitRequest, OffsetFetchRequest, TopicMetadataRequest}
import kafka.common.{OffsetAndMetadata, TopicAndPartition}
import kafka.consumer.SimpleConsumer
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Duration, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils}
//需求:消费者自定义控制offset
//在这里offset保存到kafka内部的特殊topic:__consumer_offsets中,使用kafka.consumer.SimpleConsu