Spark综合学习笔记(十四)SparkStreaming整合Kafka-代码实现1-自动提交偏移量

52 篇文章 2 订阅
9 篇文章 1 订阅

学习致谢:

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=48

需求

自动提交偏移量到默认主题和Checkpoint中
官网给出了使用方法和代码,
http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

代码实现

package streaming


import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}


/**
  * Author itcast
  * DESC 演示使用spark-atreaming-kafka-0-10_2.12中的Direct模式连接Kafka消费数据
  */object SparkStreaming_Kafka_Demo01 {
  //TODO 0.准备环境
  val conf:SparkConf=new SparkConf().setMaster("spark").setMaster("local[*]")
  val sc:   SparkContext=new SparkContext(conf)
  sc.setLogLevel("WARN")
  //the time interval at which streaming data will be dicided into batches
  val ssc:StreamingContext= new StreamingContext(sc,Seconds(5))//每隔5秒划分一个批次
  ssc.checkpoint("./ckp")
  //TODO 1.加载数据-从Kafka
  val kafkaParams = Map[String, Object](
    "bootstrap.servers" -> "node1:9092",//kafka集群地址
    "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则
    "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则
    "group.id" -> "sparkdemo",//消费者组名称
    //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费
    //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费
    //none:表示如果有offset记录从offset记录开始消费,如果没有就报错
    "auto.offset.reset" -> "latest",//如果有offset记录从offset开始消费,没有从最新开始消费
    "auot.commit.interval.ms"->"1000",//自动提交的实际间隔
    "enable.auto.commit" -> (true: java.lang.Boolean)//是否自动提交
  )

  val topics = Array("spark_kafka")//要订阅的主题

  val kafkaDS = KafkaUtils.createDirectStream[String, String](
    ssc,
    LocationStrategies.PreferConsistent,//位置策略,使用源码中推荐的
    ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)//消费策略,使用源码中推荐的
  )

  //TODO 2.处理消息
   val infoDS: DStream[String] = kafkaDS.map(record => {
    val topic: String = record.topic()
    val partition: Int = record.partition()
    val offset: Long = record.offset()
    val key: String = record.key()
    val value: String = record.value()
    val info: String = s"""topic:${topic},partition:${partition},,offset:${offset}, key:${key}. value:${value} """
    info
  })
  //TODO 3.输出结果
  infoDS.print()
  //TODO 4.启动并等待结束
  ssc.start()
  ssc.awaitTermination()//注意:流式应用程序启动之后需要一直运行等待停止、等待到来
  //TODO 5.关闭资源
  ssc.stop(stopSparkContext = true,stopGracefully = true)//优雅关闭
}

演示

在这里插入图片描述

(1)启动Kafka,然后启动程序,输入a b,c
在这里插入图片描述
输出结果,包含topic,partition,offset,key,value信息
在这里插入图片描述
(2)关闭程序后,在Kafka端输入d
在这里插入图片描述
重新启动程序,因为是每隔一秒自动提交偏移量,所以可以获取d,即接着上一次继续消费
在这里插入图片描述
在这里插入图片描述

补充

1.位置策略LocationStrategies
在这里插入图片描述

在这里插入图片描述

在所有执行器Executor中均匀分布
在这里插入图片描述
2.消费策略
(1)常用的Subscribe 订阅,具体指定
在这里插入图片描述
(2)正则订阅
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值