我们再使用SaprkStreaming的时候,确实是在使用到Spark的被压机制
在我们公司反爬虫项目的数仓处理链路中,每天会会产生很多的数据,我们日志数据量20万足左右;
最开始我们只是简单设置了每秒拉去的条数,但是在实际运行的过程中,数据出现了延迟,特别是有高级别事件功能上线后,爬虫非常活跃那段时间,可能就会出现数据积压,影响了数据梳理的准确性和时效性。
为了解决这个问题,我们引入的被压机制,可以通过参数开起来,开起来之后,可以动态调整消费数据的速度,当不是爬虫高发期的时候,被压机制会适当提高消费速度,充分利用系统资源,在爬虫高发起的时候,被压机制会降低消费速度,避免数据积压吗。同时我们设置的拉去参数,确定好被压机制的上限。
在生产环境中我们还可以通过阿里云的服务监控和saprk自带的监控界面,实时监控运行情况,灵活的结合背压机制参数和拉去数据量参数。