- 博客(2)
- 资源 (7)
- 收藏
- 关注
原创 java.lang.StackOverflowError when calling count()
Just to add some more clarity in the discussion, there is a difference between caching to memory and checkpointing, when considered from the lineage point of view. When an RDD in checkpointe
2015-08-18 14:47:28 499
原创 在Spark中实现map-side join和reduce-side join
以下说的都是二表Join,多表join则可以通过转化为多个二表join来实现。1. Map-side Join 如果要join的表中一个是大表,一个是小表(小到可以加载到内存中),就可以采用该算法。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。 类似于Hadoop MapReduce中采用DistributedCac
2015-08-06 12:58:41 483
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人