Spark面试题（三）

最新推荐文章于 2024-09-28 13:26:00 发布

cluse_ld

最新推荐文章于 2024-09-28 13:26:00 发布

阅读量111

点赞数

分类专栏： spark 文章标签： spark 大数据 kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126468189

版权

本文深入探讨Spark Streaming如何确保初次运行不丢失数据，实现精准一次消费，控制消费速率，以及背压机制。同时，分析了Spark Streaming的stage耗时问题和优雅关闭流程。讲解了两种消费Kafka数据的方式，强调了基于Direct方式的优点，如并行读取、高性能和精准一次的事务机制。

摘要由CSDN通过智能技术生成

Spark Streaming第一次运行不丢失数据

kafka参数 auto.offset.reset 参数设置为earliest 从最初始偏移量开始消费数据

Spark Streaming精准一次消费

手动维护偏移量
处理完业务数据后，再进行提交偏移量操作。在某些极端情况下会出现重复消费的问题。如果对精确性要求很高，可以使用事务来保证精准一次消费。

Spark Streaming 控制每秒消费数据的速度

通过spark.streaming.kafka.maxPerPartition 参数来设置 Spark Streaming 从kafka分区每秒拉取的条数

Spark Streaming 背压机制

spark.streaming.backpressure.enabled 参数设置为true，开启背压机制后Spark Streaming会根据延迟动态的去消费数据，上限由spark.streaming.kafka.maxPerPartition 参数控制，所以这两个参数一般会一起使用。

Spark Streaming 的一个stage耗时

Spark Streaming stage耗时由最慢的task决定，所以数据倾斜时某个task运行慢会导致整个Spark Streaming都运行很慢

Spark Streaming 优雅关闭

把spark.streaming.stopGracefullyOnShutdown 参数设置为true，Spark会在JVM关闭

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cluse_ld CSDN认证博客专家 CSDN认证企业博客

码龄3年

187: 原创

33万+: 周排名

164万+: 总排名

5万+: 访问

: 等级

1899: 积分

8: 粉丝

22: 获赞

15: 评论

83: 收藏

私信

关注

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。