参考地址:
http://spark.apache.org/docs/latest/streaming-programming-guide.html
官网中指出,spark中专门为SparkStreaming程序的监控设置了额外的途径,当使用StreamingContext时,在WEB UI中会出现一个"Streaming"的选项卡,
在此选项卡内,统计的内容展示如下:
这其中包括接受的记录数量,每一个batch内处理的记录数,处理时间,以及总共消耗的时间。
在上述参数之中最重要的两个参数分别是Porcessing Time 以及 Scheduling Delay
Porcessing Time 用来统计每个batch内处理数据所消费的时间
Scheduling Delay 用来统计在等待被处理所消费的时间
如果PT比SD大,或者SD持续上升,这就表明此系统不能对产生的数据实时响应,换句话来说就是,出现了处理时延,每个batch time 内的处理速度小于数据的产生速度。
在这种情况下,读者需要想法减少数据的处理速度,即需要提升处理效率。