Spark示例——可恢复的SparkStreaming应用

最新推荐文章于 2024-04-30 07:14:08 发布

原创最新推荐文章于 2024-04-30 07:14:08 发布 · 315 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #kafka #恢复 #scala #流式处理

BigData 同时被 3 个专栏收录

52 篇文章

订阅专栏

Scala

31 篇文章

订阅专栏

Spark

27 篇文章

订阅专栏

本文介绍了一个使用Spark Streaming实现的可恢复流式处理示例。通过设置检查点，应用能够在失败后从上次停止的地方恢复，确保数据处理的连续性和一致性。示例中详细展示了如何配置Spark Streaming、Kafka数据源以及数据处理逻辑。

Spark示例——可恢复的SparkStreaming应用

关键点

应用从上一次停止处恢复
SparkStreaming 流式处理
Kafka消费
checkpoint

代码 + 说明

import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Spark可恢复的流式处理示例
  *
  * @author ALion
  * @version 2018/10/13 10:12
  */
object RecoverableStreamDemo {

  def main(args: Array[String]): Unit = {
    val checkpointDirectory = "/spark/checkpoint"

    val ssc = StreamingContext.getOrCreate(
      checkpointDirectory, // 应用可从此处恢复
      () => createContext(checkpointDirectory) // 如果无法恢复，就调用该函数创建
    )
    
    ssc.start()
    ssc.awaitTermination()
  }

  def createContext(checkpointDirectory: String): StreamingContext = {
    // 1.参数准备
    val Array(batchTime, windowTime, topics, brokers) = Array(
      "3", // 单次批处理时间间隔
      "6", // 窗口时间
      "TOPIC_PERSON", // Kafka的topic
      "13.68.10.1:21005,13.68.10.2:21005,13.68.10.3:21005" // Kafka的节点
    )
    val batchDuration = Seconds(batchTime.toInt)
    val topicsSet = topics.split(",").toSet
    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)

    // 2.构建Context
    val conf = new SparkConf().setAppName("RecoverableApp")
    val ssc = new StreamingContext(conf, batchDuration)
    ssc.checkpoint(checkpointDirectory) // 设置检查点，本次应用数据保存至此处。此处一定要再次设置

    // 3.从Kafka消费数据
    val lines = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc, kafkaParams, topicsSet)
      .map(_._2)

    // 过滤获取name=XiaoMing的数据信息，并打印
    lines.map(x => {
      val fields = x.split(",")
      val time = fields(0).toLong
      val name = fields(1)
      val age = fields(4)
      val address = fields(5)
      (time, name, age, address)
    }).filter(_._2 == "XiaoMing")
      .print()

    ssc
  }

}