了解SparkStreming的背压机制吗

我们再使用SaprkStreaming的时候,确实是在使用到Spark的被压机制
在我们公司反爬虫项目的数仓处理链路中,每天会会产生很多的数据,我们日志数据量20万足左右;
最开始我们只是简单设置了每秒拉去的条数,但是在实际运行的过程中,数据出现了延迟,特别是有高级别事件功能上线后,爬虫非常活跃那段时间,可能就会出现数据积压,影响了数据梳理的准确性和时效性。
为了解决这个问题,我们引入的被压机制,可以通过参数开起来,开起来之后,可以动态调整消费数据的速度,当不是爬虫高发期的时候,被压机制会适当提高消费速度,充分利用系统资源,在爬虫高发起的时候,被压机制会降低消费速度,避免数据积压吗。同时我们设置的拉去参数,确定好被压机制的上限。
在生产环境中我们还可以通过阿里云的服务监控和saprk自带的监控界面,实时监控运行情况,灵活的结合背压机制参数和拉去数据量参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值