Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

最新推荐文章于 2024-08-25 16:18:37 发布

置顶

大数据玩家

最新推荐文章于 2024-08-25 16:18:37 发布

阅读量3k

点赞数

分类专栏： spark 文章标签： spark kafka 消费者

本文链接：https://blog.csdn.net/qq_23160237/article/details/86033379

版权

本文介绍了Spark-Streaming从Kafka获取数据的两种消费模式——基于Receiver和Direct的方式，详细分析了两种模式的优缺点。Receiver方式可能导致数据丢失，而Direct方式提供更高效且保证数据一次且仅消费一次的事务机制。同时，文章讨论了Kafka消费者的三种语义：最多消费一次、最少消费一次和恰好消费一次，并指出Direct API在offset管理的灵活性和效率提升。

摘要由CSDN通过智能技术生成

两种消费模式

一、基于Receiver的方式

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。

然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中。所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复，但是效率底下，并且容易导致executor内存溢出，不推荐使用。

注意点：

1、Kafka中topic的partition，与Spark中的RDD的partition是没有关系的。所以，增加kafka中topic的分区数，只会增加receiver的个数，就是读取topic的线程数量，并不会增加spark处理数据的并行度。
2、如果基于容错的文件系统，比如HDFS，启用了预写日志机制，接收到的数据都会被复制一份到预写日志中。因此，在KafkaUtils.createStream()中，设置的持久化级别是StorageLevel.MEMORY_AND_DISK_SER。