如何选择Spark Streaming 的Reveiver和Direct模式

栗子呀！

于 2021-02-08 13:02:03 发布

阅读量379

点赞数

分类专栏：大数据Spark Streaming专栏文章标签：大数据 spark hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43665254/article/details/113755102

版权

大数据Spark Streaming专栏专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Receiver

这里的kafka获取数据其实是从HDFS中获取（WAL机制）（恢复时间较长）
在这里插入图片描述
task相当于一个线程
这里一个Executor中的多个task共同处理一个data中的数据，这里可以通过增加execut节点的方式增加task来提高消费能力

Direct

在这里插入图片描述
这里的Spark RDD的Partition 与 Kafka Partition 保持一致性。不能增加task数量，因为是一对一的关系
从kafka获取数据，比从hdfs获取数据，因为zero copy的方式，速度肯定更快。
1、receiver和direct如何选择？
根据业务现状：
–业务初期，消息量不是很大：根据rdd partition，kafka partition一致性选择direct
–业务稳定期：提前考虑流量的高并发，（集群稳定性、代码的健壮性有保障），可以通过使用receiver方式提高消费能力，这里能通过启动execut来增加内存空间
业界常用： receiver方式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。