Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

最新推荐文章于 2023-02-28 11:45:00 发布

原创

最新推荐文章于 2023-02-28 11:45:00 发布 · 9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#spark #zookeeper #kafka #Receiver #Direct

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式，可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据了。

一、基于Receiver的方式
这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。

然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中。所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。

如何进行Kafka数据源连接
1、在maven添加依赖

<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming-kafka_2.10</artifactId>
	<version>1.4.1</version>
</dependency>

2、scala代码

val kafkaStream = {
  val sparkStreamingConsumerGroup = "spark-streaming-consumer-group"
  val kafkaParams = Map(
    "zookeeper.connect

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kwu_ganymede

关注关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

SparkStreaming消费Kafka的两种方式

别人笑我太疯癫，我笑他人看不穿。

03-05

3453

一，receiver方式读取这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现数据的消费。 receiver方式从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。但是在默认的配置下，这种方式可能会因为底层的失败而丢失数据，因为消费时kafka的高级API是不会去维护偏移量的要启用高可靠机制，让数据零丢失，启用Spark Streaming的预写日志机制（W

Spark对kafka两种连接方式的对比

Jingmingtao11的博客

09-13

243

4.createStream中创建的KafkaInputDStream每个batch所对应的RDD的partition不与Kafkapartition一一对应;简化并行:不再需要创建多个kafka input DStream然后再union这些input DStream.使用directStream,spark Streaming会创建与Kafkapartitions相同数量的partitions的RDD,RDD的partition与Kafka的partition一一对应,这样更易于理解及调优。

1 条评论您还未登录，请先登录后发表或查看评论

Spark(SparkStreaming)消费Kafka消息--使用mysql或redis维护消费索引（保证消费的数据不重复不丢失）

weixin_48960305的博客

11-25

1080

Spark(SparkStreaming)消费Kafka消息--使用mysql或redis维护消费索引（保证消费的数据不重复不丢失）, '多主题，多分区'

Spark Streaming 的 Receiver和 Direct模式

u011500419的专栏

04-15

884

1 两种模式的原理和区别 Receiver模式 1. Receiver模式下的运行架构 1)InputDStream: 从流数据源接收的输入数据。 2)Receiver：负责接收数据流，并将数据写到本地。 3)Streaming Context：代表SparkStreaming，负责Streaming层面的任务调度，生成jobs发送到Spark engine处理。 4)Spark ...

Spark Streaming消费Kafka数据的两种方案

微信搜：import_bigdata，大数据领域硬核原创作者

05-13

6702

下午的时候翻微信看到大家在讨论Spark消费Kafka的方式，官网中就有答案，只不过是英文的，当然很多博客也都做了介绍，正好我的收藏夹中有一篇文章供大家参考。文章写的通俗...

Spark Streaming读取Kafka数据的两种方式

theminer的博客

01-10

2437

Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择:spark-streaming-kafka-0-8与spark-streaming-kafka-0-10。在使用时应注意以下几点: spark-streaming-kafka-0-8兼容Kafka 0.8.2.1及以后的版本, 从Spark 2.3.0开始，对Kafka 0.8支持已被标记为过时。 spark-streaming-kafka-0-10兼容Kaf.

Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

bigdata_player

01-08

3095

两种消费模式一、基于Receiver的方式 Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据...

SparkStreaming读取kafka数据的两种方式（receive与direct）对比

wjt199866的博客

07-01

1317

陈诉大家都知道在spark1.3版本后，kafkautil里面提供了两个创建dstream的方法，一个是老版本中有的createStream方法，还有一个是后面新加的createDirectStream方法。总之，通过新方法创建出来的dstream的rddpartition和kafka的topic的partition是一一对应的，通过低阶API直接从kafka的topic消费消息，，默认将偏移量保存在kafka内部。对比 Receive Receive是使用的高级API，需要消费者连接Zo.

Spark Streaming从Kafka中接收数据的两种方式

Enzo的探索之路

12-07

4525

spark streaming流式处理kafka中的数据，首先是把数据接收过来，然后转换为spark streaming中的数据结构Dstream。接收数据的方式有两种：1.利用Receiver接收数据；2.直接从kafka读取数据。基于Receiver的方式（旧方法）流程：此方法使用Receiver接收数据。Receiver是使用Kafka高阶API接口实现的。与所有接收器一样，从Kafk...

Spark消费Kafka的两种方式

06-11

6610

在这里插入代码片

SparkStreaming 消费Kafka数据的两种方式（Receiver，Direct）~

gym02的博客

11-23

1006

而在Direct方式中，Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据，这种映射关系也更利于理解和优化。在Receiver的方式中，使用的是Kafka的高阶API接口从Zookeeper中获取offset值，这也是传统的从Kafka中读取数据的方式，但由于。的最新的offset，从而定义每个batch的offset的范围。这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。使用 kafka 的简单 api，

SparkStreaming两种从Kafka中接收数据的方式

liuwei063608的专栏

06-05

348

1.基于Receiver（接收器）的方式: 使用Receiver来接收Kafka中的数据。Receiver是一个基于Kafka高级消费者API实现的，对于所有接收器来说,这些接收器都是通过Receiver来接收Kafka中的数据并保存数据到 Spark的executor中,之后通过SparkStreaming启动Job来处理这些数据。然而在默认的配置下,这种方式在某些异常情况下回出现数据丢失情况...

Spark消费kafka数据的两种方式

hailunw的专栏

06-27

180

Receiver based approach Direct Approach

SparkStreaming 从 Kafka中接收数据的两种方式与调优

qq_21705851的博客

03-10

781

一、Receiver方式 1.调用高阶API； 2.通过Receiver接收器来读取数据，被动接收数据； 3.接收到的数据在executor内存中； 4.Spark的分区和Kafka分区不相关，加大topic分区无法提高spark并行度； 5.数据可能丢失。1.2以后通过checkpoint和配置spark.streaming.receiver.writeAheadLog.enable防止数据丢失...

sparkStreaming消费kafka数据的两种方式（Receiver和Direct）详解及区别

weixin_43806056的博客

11-27

912

spark Streaming读取kafka数据的两种方式：（1）receiver-base Receiver模式是使用kafka的高层次的消费者api来实现的，这种方式是使用receiver不间断的来接收数据（push的模式），接收的数据会存储到Executor中（默认存储级别是内存满后写入磁盘），然后sparkStreaming启动作业去处理数据，处理完这一批数据之后，更新zookeeper...

Spark消费kafka的方式和区别

u013343882的博客

11-08

271

https://blog.csdn.net/woloqun/article/details/80635304

kafka（十三）：spark ReceiveAPI和DirectAPI从kafka消费数据

小蚯蚓的博客

10-19

600

一、实现功能 Streaming通过两种方式，消费kafka数据。具体实现，参考spark：http://spark.apache.org/docs/2.1.0/streaming-kafka-0-8-integration.html 二、环境 1.spark2.1.0 2.kafka0.9.0.0 3.pom文件 <properties> <scala...

【Spark分布式内存计算框架——Spark Streaming】8. Direct 方式集成底层原理 & 集成Kafka 0.10.x

CSDNGuoYuying的博客

02-28

562

文档：http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html。使用Kafka 0.10.+提供新版本Consumer API集成Streaming，实时消费Topic数据，进行处理。第一、简单的并行度（Simplified Parallelism）第一、类似 Old Consumer API中Direct方式。第二、高效（Efficiency）第二、简单并行度1:1。