SparkStreaming的检查点机制:
检查点机制是用来保障容错性的主要机制。
控制发生失败时需要重算的状态数:
设置检查点的话,那么程序发生失败的时候,可以直接通过检查点的记录来继续计算,而不需要再重新算一遍。
提供驱动器程序容错:
如果流计算中的驱动器程序崩溃了,你可以重启驱动器程序,并让驱动器程序从检查点回复,这样SparkStreaming就可以读取之前运行的程序处理数据的进度,并从那里继续。
SparkStreaming的驱动器程序容错:
StreamingContext.getOrCreate():可以从错误中恢复驱动器程序
def createStreamingContext(): StreamingContext = {
val appName = "SparkStreaming"
val conf = new SparkConf().setAppName(appName).setMaster("local[2]")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(5))
// ssc.checkpoint("hdfs://nameservice1:8020/home/fixFile/check")
ssc.checkpoint("C:\\Users\\MK\\Desktop\\tmp\\check01")
//kafka参数
val kafkaParam = Map[String, String](//kafka低级api配置
"zookeeper.connect" -> "sxjdb03:2181,sxjdb01:2181", //配置zookeeper args(0)
"metadata.broker.list" -> "sxjdb01:9092",
"group.id" -> "gtTest1", //设置一下group id
"auto.offset.reset" -> kafka.api.OffsetRequest.LargestTimeString, //从该topic最新的位置开始读数
"client.id" -> "gtTest1",
"zookeeper.connection.timeout.ms" -> "10000"
)
val topicSet = Set("t_mk")
val directKafka: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParam, topicSet)
val windowed = directKafka.map(x => x._2.toInt)
val result = windowed.map((_, 1)).print()
ssc
}
def main(args: Array[String]): Unit = {
val ssc = StreamingContext.getOrCreate("C:\\Users\\MK\\Desktop\\tmp\\check01", createStreamingContext _)
ssc.start()
ssc.awaitTermination()
}
前提是:将程序提交到集群中->所以需要数据参数
--deploy-mode cluster
设置监听参数来让Spark重启失败的驱动器程序:
--supervise
Spark-submit --deploy-mode cluster --supervise --master spark://..... **.jar