Spark综合学习笔记（十五）SparkStreaming整合Kafka-代码实现2-手动提交偏移量

最新推荐文章于 2024-05-03 17:08:17 发布

斯特凡今天也很帅

最新推荐文章于 2024-05-03 17:08:17 发布

阅读量354

点赞数

分类专栏：大数据 Kafka spark 文章标签： spark scala kafka big data

本文链接：https://blog.csdn.net/weixin_41311528/article/details/121515287

版权

大数据同时被 3 个专栏收录

85 篇文章 2 订阅

订阅专栏

spark

52 篇文章 2 订阅

订阅专栏

Kafka

9 篇文章 1 订阅

订阅专栏

学习致谢

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=49
http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

代码实现

package streaming

import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Author itcast
  * DESC 演示使用spark-atreaming-kafka-0-10_2.12中的Direct模式连接Kafka消费数据+手动提交offset
  */object SparkStreaming_Kafka_Demo02 {
  //TODO 0.准备环境
  val conf:SparkConf=new SparkConf().setMaster("spark").setMaster("local[*]")
  val sc:   SparkContext=new SparkContext(conf)
  sc.setLogLevel("WARN")
  //the time interval at which streaming data will be dicided into batches
  val ssc:StreamingContext= new StreamingContext(sc,Seconds(5))//每隔5秒划分一个批次
  ssc.checkpoint("./ckp")
  //TODO 1.加载数据-从Kafka
  val kafkaParams = Map[String, Object](
    "bootstrap.servers" -> "node1:9092",//kafka集群地址
    "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则
    "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则
    "group.id" -> "sparkdemo",//消费者组名称
    //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费
    //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费
    //none:表示如果有offset记录从offset记录开始消费,如果没有就报错
    "auto.offset.reset" -> "latest",//如果有offset记录从offset开始消费，没有从最新开始消费
    //"auot.commit.interval.ms"->"1000",//自动提交的实际间隔
    "enable.auto.commit" -> (false: java.lang.Boolean)//是否自动提交
  )

  val topics = Array("spark_kafka")//要订阅的主题

  val kafkaDS = KafkaUtils.createDirectStream[String, String](
    ssc,
    LocationStrategies.PreferConsistent,//位置策略，使用源码中推荐的
    ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)//消费策略，使用源码中推荐的
  )

  //TODO 2.处理消息
  //注意提交的时机：应该是消费完一批就该提交一次offset而在DStream一小批的体现是RDD
  kafkaDS.foreachRDD(rdd=> {
    if (!rdd.isEmpty()) {
      //消费
      rdd.foreach(record => {
        val topic: String = record.topic()
        val partition: Int = record.partition()
        val offset: Long = record.offset()
        val key: String = record.key()
        val value: String = record.value()
        val info: String = s"""topic:${topic},partition:${partition},，offset:${offset}， key:${key}. value:${value} """
        println("消费到的消息的 详细信息为" + info)
      })
      //获取rdd中offset相关的信息：offsetRanges里面就包含了该批次各个分区的offset信息
      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      //提交
      kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      println("当前批次的数据已消费并手动提交")
    }
  })
  //TODO 3.输出结果

  //TODO 4.启动并等待结束
  ssc.start()
  ssc.awaitTermination()//注意：流式应用程序启动之后需要一直运行等待停止、等待到来
  //TODO 5.关闭资源
  ssc.stop(stopSparkContext = true,stopGracefully = true)//优雅关闭
}

演示

(1)输入a,b,c,d
在这里插入图片描述
观察控制台输出，分区(partition)对应的偏移量(offset)

在kafka端再输入e,f,g,

再观察控制台输出，分区(partition)对应的偏移量(offset)，可以看到每个分区对应的offset都加一
在这里插入图片描述
此时再在Kafka端输入h
可以看到分区2(partition)对应的偏移量加一变为6(offset)

补充

引用到官网的内容
在这里插入图片描述

斯特凡今天也很帅

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark综合学习笔记（十五）SparkStreaming整合Kafka-代码实现2-手动提交偏移量

学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=49http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html代码实现package streamingimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka0
复制链接

扫一扫

专栏目录