spark一个奇怪的bug

最新推荐文章于 2022-06-21 20:38:17 发布

Effpom

最新推荐文章于 2022-06-21 20:38:17 发布

阅读量297

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/liuhoukai1/article/details/78710798

版权

3 篇文章 0 订阅

订阅专栏

见下面代码:
val right_rdd=rightplan.execute()
val right_result=right_rdd.collect()
rightplan是一个SparkPlan，若直接collect取数据，则取到的数据集是每个分区内部的最后一条数据*分区内的总记录个数:

但是单独取InternalRow行内的数据的话，是可以取到的,真实数据集是:

collect前后取saveasTextFile()都是正确的，只有collect()取到的是错误的.很奇怪

这种情况下，所以采用副本的形式转换数据集:

val right_rdd=rightplan.execute().map(iter=>iter.copy())
val right_result=cccc.collect()
这样就可以取到真实数据集了，可能是其中的某个逻辑过程有问题，暂时没找到。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注