了解SparkStreming的背压机制吗

冰火同学

于 2025-03-11 22:02:50 发布

阅读量171

点赞数 2

分类专栏： Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Freddycsf/article/details/146190349

版权

Spark 专栏收录该内容

32 篇文章

订阅专栏

我们再使用SaprkStreaming的时候，确实是在使用到Spark的被压机制
在我们公司反爬虫项目的数仓处理链路中，每天会会产生很多的数据，我们日志数据量20万足左右；
最开始我们只是简单设置了每秒拉去的条数，但是在实际运行的过程中，数据出现了延迟，特别是有高级别事件功能上线后，爬虫非常活跃那段时间，可能就会出现数据积压，影响了数据梳理的准确性和时效性。
为了解决这个问题，我们引入的被压机制，可以通过参数开起来，开起来之后，可以动态调整消费数据的速度，当不是爬虫高发期的时候，被压机制会适当提高消费速度，充分利用系统资源，在爬虫高发起的时候，被压机制会降低消费速度，避免数据积压吗。同时我们设置的拉去参数，确定好被压机制的上限。
在生产环境中我们还可以通过阿里云的服务监控和saprk自带的监控界面，实时监控运行情况，灵活的结合背压机制参数和拉去数据量参数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。