rdd算子中能使用rdd的引用吗?

rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误:
java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster

按spark的说法是trasaction中不能嵌套,这是因为客户函数将以闭包的形式发送至各个worker。若客户函数使用了rdd的引用(特别是当前rdd的引用),spark将会把当前rdd对象闭包给worker.然而,对rdd对象的执行只能由driver进行,worker并不能执行,所以会导致错误。
如:

val r1 = r0.zipWithUniqueId()
val r2 = r1.filter(_._2 / r1.partitions.length)

第二句filter算子的客户函数引用了r1,即使只是使用一个Int型的分区数目,都会导致错误。
当前情况在spark1.4是可以通过的,但在spark1.6就会出错,spark1.6在这个原则问题上处理更加严肃!

处理办法,去掉rdd引用,使用本地数据结构代替:

val r1 = r0.zipWithUniqueId()
val partitionSize = r1.partitions.length
val r2 = r1.filter(_._2 / partitionSize )
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值