spark消费kafka产生数据堆积怎么处理_Spark组件——流式处理框架SparkStreaming

最新推荐文章于 2023-04-24 16:02:01 发布

weixin_39578867

最新推荐文章于 2023-04-24 16:02:01 发布

阅读量363

点赞数

文章标签： spark消费kafka产生数据堆积怎么处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39578867/article/details/113318325

版权

SparkStreaming

简介

SparkStreaming是流式处理框架，支持可扩展、高吞吐量、高容错的准实时数据流处理
实时流的来源：
Kafka, Flume, Twitter, ZeroMQ或者TCPsockets

与Storm的区别

Storm是纯实时的流式处理框架，SparkStreaming是准实时的处理框架（微批处理）。因为微批处理，SparkStreaming的吞吐量比Storm要高。
Storm 的事务机制要比SparkStreaming的要完善。
Storm支持动态资源调度。(spark1.2开始和之后也支持)
SparkStreaming擅长复杂的业务处理，Storm不擅长复杂的业务处理，擅长简单的汇总型计算。

SparkStreaming结构

注意：

receiver task是7*24小时一直在执行，一直接收数据
若数据的处理速度慢于batch间隔，则会导致并行的接收数据与任务处理，会产生一些问题
如果接收过来的数据设置的级别是仅内存，接收来的数据会越堆积越多，最后可能会导致OOM（如果设置StorageLevel包含disk，则内存存放不下的数据会溢写至disk, 加大延迟 ࿰

最低0.47元/天解锁文章

weixin_39578867

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark消费kafka产生数据堆积怎么处理_Spark组件——流式处理框架SparkStreaming

SparkStreaming简介SparkStreaming是流式处理框架，支持可扩展、高吞吐量、高容错的准实时数据流处理实时流的来源：Kafka, Flume, Twitter, ZeroMQ或者TCPsockets与Storm的区别Storm是纯实时的流式处理框架，SparkStreaming是准实时的处理框架（微批处理）。因为微批处理，SparkStreaming的吞吐量比Storm要高。S...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。