sparkStreaming-检查点机制与驱动器容错

SparkStreaming的检查点机制:

检查点机制是用来保障容错性的主要机制。

控制发生失败时需要重算的状态数:

设置检查点的话,那么程序发生失败的时候,可以直接通过检查点的记录来继续计算,而不需要再重新算一遍。

提供驱动器程序容错:

如果流计算中的驱动器程序崩溃了,你可以重启驱动器程序,并让驱动器程序从检查点回复,这样SparkStreaming就可以读取之前运行的程序处理数据的进度,并从那里继续。

SparkStreaming的驱动器程序容错:

StreamingContext.getOrCreate():可以从错误中恢复驱动器程序
  def createStreamingContext(): StreamingContext = {
    val appName = "SparkStreaming"
    val conf = new SparkConf().setAppName(appName).setMaster("local[2]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))
//    ssc.checkpoint("hdfs://nameservice1:8020/home/fixFile/check")
    ssc.checkpoint("C:\\Users\\MK\\Desktop\\tmp\\check01")
    //kafka参数
    val kafkaParam = Map[String, String](//kafka低级api配置
      "zookeeper.connect" -> "sxjdb03:2181,sxjdb01:2181", //配置zookeeper args(0)
      "metadata.broker.list" -> "sxjdb01:9092",
      "group.id" -> "gtTest1", //设置一下group id
      "auto.offset.reset" -> kafka.api.OffsetRequest.LargestTimeString, //从该topic最新的位置开始读数
      "client.id" -> "gtTest1",
      "zookeeper.connection.timeout.ms" -> "10000"
    )
    val topicSet = Set("t_mk")
    val directKafka: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParam, topicSet)
    val windowed = directKafka.map(x => x._2.toInt)
    val result = windowed.map((_, 1)).print()
    ssc
  }
  def main(args: Array[String]): Unit = {
    val ssc = StreamingContext.getOrCreate("C:\\Users\\MK\\Desktop\\tmp\\check01", createStreamingContext _)
    ssc.start()
    ssc.awaitTermination()
  }

前提是:将程序提交到集群中->所以需要数据参数

  --deploy-mode cluster

         设置监听参数来让Spark重启失败的驱动器程序:

--supervise

Spark-submit --deploy-mode cluster --supervise --master spark://..... **.jar


阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页