Spark-Streaming+kafka

Spark Streaming与Kafka Direct API

最新推荐文章于 2023-12-28 12:33:33 发布

原创最新推荐文章于 2023-12-28 12:33:33 发布 · 283 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark-streaming

Spark 专栏收录该内容

7 篇文章

订阅专栏

探讨Spark Streaming结合Kafka Direct API的高效数据处理方法，包括简化并行性、提高效率及确保数据处理的准确性和一致性。直接API避免了数据的二次复制，实现了与Kafka分区一对一的RDD分区映射，确保了零数据丢失。

Spark Streaming + Kafka direct API

direct 周期查询kafka的最新offset在每个topic + partition，然后定义每个batch的offset范围。当
处理数据的job被启动时，kakfa的简单消费API是被用于去读取设定的范围的offset从kafka(类似读取文件从
文件系统)。

有几个优点相对receiver：
	Simplified Parallelism:不需要去创建多个input Kafka stream然后union它们。采用
directStream，Spark Streaming将创建与Kafka partitions相同数据的RDD partitions
去消费，并行从kafka读取数据。因此kafka 和 RDD partition 是一一映射，这是很容易理解和调优的。

	Efficiency:实现零数据丢失在receiver需要把数据存储在 WAL中，WAL中复制数据。这个实际是低效
的，因为这个数据获取了两次复制--第一次被kafka,第二次被WAL。direct 方式排除这个问题，因为这里没有
receiver，因此不需要WAL。只要你有重大的kafka retention时，message 能够从kafka找回

    Exactly-once semantics:receiver 使用了kakfa的 高级API在zookeeper去存储消费的offset。
这是传统消费kafka的数据方式。direct方式能够确保零数据丢失，在这里存在小概率一些记录可能被消费两次
在一些失败后。重复消费的出现是因为非一致性在SparkStreaming接收到的可靠数据和记录在Zookeper的
offset。因此，direct方式，采用没有使用zookeper的简单的kafka API。offset记录在checkpoints
中。这个排除了Spark Streaming和Zookeeper/kafka的一致性，因此每条记录被spark Streaming接收的
是执行一次，即使失败。为了实现 exactly-once semantics为你的结果，你的输出操作保存数据至一个外部
数据存储必须要不是idempotent幂等性的，或者原子事务保存结果和offset

注意点：
	1. 强制类型转换 HasOffsetRange 只有在DirectKafkaStream的第一个方法才能成功，而不是后面的
链式方。可以通过transform()代码 foreachRDD()如果你的第一个方法只是是访问offset。然后再调用
Spark的其他方法。然而，注意RDD partition与kafka partition的一一映射关系将不再维持，在绝对绝对
经历了shuffle或者repartition之后，例如reduceByKey() 或者 window()。
	2. 这种方式没有使用receivers，标准的receiver相关的也不将被应用至 input DStreams--通过
direct 方式创建的。取代的是spark.streaming.kafka.* 其中一个重要的是
spark.streaming.kafka.maxRatePerPartition，这个设置用于设置每个kafka partition将被direct 
API读取的最大速率