Spark的RDD连续转换操作有时需要注意强行触发action执行操作,否则(Tansformation)的惰性(lazy)机制会导致结果错误
最近通过spark做一些数据处理,遇到一些诡异的现象我开发了一个随机生成海量数据点的程序,因为要保证这些点具有自增序号,不适合直接map分布式做(几十亿的数据,map计算需要分区(不主动分区估计也会自动分区,spark自带的数据累加逻辑只能对单个partition分区内有效),需要在driver里进行序号计算,所以就想通过数组分批生成数据,转换成RDD,在依次拼接(union)起来,就是...
原创
2018-08-27 22:56:16 ·
3510 阅读 ·
1 评论