Spark Streaming 读取 Kafka 数据的两种方式

最新推荐文章于 2020-09-07 23:49:22 发布

weixin_30929295

最新推荐文章于 2020-09-07 23:49:22 发布

阅读量103

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/geek-sharing/p/9339681.html

版权

在Spark1.3之前，默认的Spark接收Kafka数据的方式是基于Receiver的，在这之后的版本里，推出了Direct Approach，现在整理一下两种方式的异同。

1. Receiver-based Approach

val kafkaStream = KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] )

2. Direct Approach (No Receivers)

val directKafkaStream = KafkaUtils.createDirectStream[

源码实现

1、 KafkaUtils.createStream

首先从源码层面来看，其主要调用栈顺序：

KafkaUtils.createStream---KafkaInputDStream--KafkaReceiver

KafkaReceiver类继承了Receiver，当Reciver被调用起来时，执行onStart()方法，MessageHandler负责将收到的数据进行存储。执行流程如下：

创建createStream，Receiver被调起执行
连接ZooKeeper，读取相应的Consumer、Topic配置信息等
通过consumerConnector连接到Kafka集群，收取指定topic的数据
创建KafkaMessageHandler线程池来对数据进行处理，通过ReceiverInputDStream中的方法，将数据转换成BlockRDD,供后续计算

2、 KafkaUtils.createDirectStream

主要调用栈顺序：

KafkaUtils.createDirectStream—> new DirectKafkaInputDStream

执行流程如下：

实例化KafkaCluster，根据用户配置的Kafka参数，连接Kafka集群
通过Kafka API读取Topic中每个Partition最后一次读的Offset
接收成功的数据，直接转换成KafkaRDD,供后续计算

转载于:https://www.cnblogs.com/geek-sharing/p/9339681.html

weixin_30929295

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。