batch与spark spring_spark streaming 与 kafka 结合使用的一些概念理解

最新推荐文章于 2023-05-16 09:36:56 发布

宋梦寒

最新推荐文章于 2023-05-16 09:36:56 发布

阅读量134

点赞数

文章标签： batch与spark spring

本文链接：https://blog.csdn.net/weixin_42527178/article/details/113891651

版权

1. createStream会使用 Receiver；而createDirectStream不会,数据会通过driver接收。

2.createStream使用 Receiver 源源不断的接收数据并把数据交给 ReceiverSupervisor 处理最终存储为 blocks 作为 RDD 的输入，从 kafka 拉取数据与计算消费数据相互独立；而createDirectStream会在每个 batch 拉取数据并就地消费，到下个 batch 再次拉取消费，周而复始，从 kafka 拉取数据与计算消费数据是连续的，没有独立开

createStream 一般是一个inputstreaming 对应一个receiver，receiver其实就是一个消费者进程，你可以设置多个线程来消费，或者create多个inputstreaming 最后union就行。

3.createStream中创建的KafkaInputDStream 每个 batch 所对应的 RDD 的 partition 不与 Kafka partition 一一对应；而createDirectStream中创建的 DirectKafkaInputDStream 每个 batch 所对应的 RDD 的 partition 与 Kafka partition 一一对应。