大数据IMF传奇行动绝密课程第116课:Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算

Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算

Spark Streaming的处理模式是按照Batch Duration进行Micro Batch Computation的,且如果上一批数据没有处理完的话是不会处理下一批数据的!这会导致几个结果:
第一:如果前面一个Batch数据量突然间特别大的话,就会导致计算的高度延迟,使得当前的Batch不能够得到及时的计算,以此类推。会陷入恶性循环。
第二:在一个Batch处理的时候如果Task处理的时间波动比较大(例如说数据倾斜、数据的峰值、出错等),其他的Task都已经处理完了,所以整个Batch处理就只是在等待这个Task处理完成,却不能够使用Memory和Cores等资源处理下一个Batch任务,会形成资源的极大浪费。
第三:JVM的GC的巨大负担

市面上说的解决方式:限流、改Partition并行度、增加Cores和Memory等等

所以,唯一效果显著的办法:不要等待!什么意思?就是无论Batch Duration数据大小和处理的复杂度,都会立即完成当前Batch的处理,然后立即去处理下一个Batch的任务!

怎么做?此时我们既要完成业务的计算,又要达到毫秒级别的延迟!

一个可能办法是:Spark Streaming的业务处理逻辑放在线程池中!而绝妙的精彩之处在于Spark Streaming程序执行的时候,业务逻辑就是以Task的方式放在线程池中的!所以可以最大化的复用线程,从而最佳化的使用硬件资源!模拟代码如下:

dstream.foreachRDD(rdd => 
    rdd.foreachPartition( splited => {
        //业务处理逻辑,如果直接处理的话就会是阻塞式的,但是此时我们可以使用线程池去处理业务逻辑(此处的线程池是你自己定义的),此时任务肯定是毫秒级别完成的。
//此时唯一需要注意的是线程数受限于物理硬件,所以需要根据实际情况设定线程池中并发Task的个数,例如不能够超过200个,如果超过了,怎么办呢?新的Task就采用阻塞式操作,此时其它的线程在并行运行并且不断的完成Task,就会有新的可用线程来进行异步操作!

    })
)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值