SparkStreaming读取kafka数据（1）-2种方式介绍

最新推荐文章于 2022-11-23 16:17:03 发布

黑暗行动

最新推荐文章于 2022-11-23 16:17:03 发布

阅读量908

点赞数

分类专栏：大数据文章标签： spark streaming kafka

本文链接：https://blog.csdn.net/chy2z/article/details/85227884

版权

环境

Spark 2.3.0
kafka_2.9.2-0.8.2.2
Scala 2.11

2种方式

一种是利用接收器（receiver）和kafaka的高层API实现。

一种是不利用接收器，直接用kafka底层的API来实现（spark1.3以后引入）

Receiver方式

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。

然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中。所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。

注意的要点：

1、Kafka中的topic的partition，与Spark中的RDD的partition是没有关系的。所以，在KafkaUtils.createStream()中，提高partition的数量，只会增加一个Receiver中，读取partition的线程的数量。不会增加Spark处理数据的并行度。

2、可以创建多个Kafka输入DStream，使用不同的consumer