最好可以用RDD的就不要用DataFrame
今日就遇到执行出现 SparkContext异常停止,怀疑是DataFrame的distinct操作和groupby一样并不在本地合并为最小集,导致最后崩溃;而后换成RDD.distinct()却是可以的。
经多次测试都是以上结论
测试数据 一亿两千万条
最好可以用RDD的就不要用DataFrame
今日就遇到执行出现 SparkContext异常停止,怀疑是DataFrame的distinct操作和groupby一样并不在本地合并为最小集,导致最后崩溃;而后换成RDD.distinct()却是可以的。
经多次测试都是以上结论
测试数据 一亿两千万条