Spark Streaming空DStream判断


在Spark Streaming中对空DStream的判断,最终都是对空RDD的判断。一般有三种方法:计数(RDD.count),分区(RDD.partitions.length),计数+分区(RDD.isEmpty)。

RDD.count
适用于所有类型的DStream,但由于是Action算子,会触发SparkContext.runJob方法,从而导致Job的提交和运行,当数据量较大时,代价也比较大。不推荐。

RDD.partitions.length
通过RDD的分区数来判断,但不适用于KafkaDirectStream。当Batch为空时,KafkaDirectStream的RDD.partitions数组中有KafkaRDDPartition对象,维护了每一个Kafka Topic Partition的fromOffset、untilOffset等。适用于FileDStream、SocketDStream。

RDD.isEmpty
先看看RDD.isEmpty的实现:

def isEmpty(): Boolean = withScope {
    //没有分区或没有数据时则返回true
    partitions.length == 0 || take(1).length == 0
}

先判断是否有分区,再判断是否有数据。这才是我们想要的。生产中应当用此方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值