近几日自己摸索的去看了一下kafka的一些特征,自己总结出来,加深一下印象
这个是sparkstreaming对接kafka,用direct方式消费数据的方法,点开这个方法看一下里面的描述
这是源码里对方法的描述,它说会这个方法会创建一个直接从Kafka代理获取消息的输入流,不使用任何接受器。
下面还有一段对这句话的解释,说这个流会直接查询kafka的偏移量,不使用zk去保存偏移量,消耗跟踪偏移量依靠流自身。还强调了要从程序恢复故障,就要通过StreamingContext启动checkpointing,消耗的偏移量信息可以从checkpoint处恢复。
对于这段话,我有点不理解,忘大佬告知