spark
文章平均质量分 79
eagooqi
大数据处理专家
展开
-
java.lang.StackOverflowError when calling count()
Just to add some more clarity in the discussion, there is a difference between caching to memory and checkpointing, when considered from the lineage point of view. When an RDD in checkpointe原创 2015-08-18 14:47:28 · 499 阅读 · 0 评论 -
在Spark中实现map-side join和reduce-side join
以下说的都是二表Join,多表join则可以通过转化为多个二表join来实现。 1. Map-side Join 如果要join的表中一个是大表,一个是小表(小到可以加载到内存中),就可以采用该算法。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。 类似于Hadoop MapReduce中采用DistributedCac原创 2015-08-06 12:58:41 · 482 阅读 · 0 评论