Spark cache、persist和checkpoint
先简单的说一下对spark core的一些理解:spark核心是RDD,也就是弹性分布式数据集。一个RDD上有多个partition。计算过程是一个有向无环图DAG。DAG由一个个的stage组成。stage划分规则是遇到宽依赖就划分一个stage。宽依赖和shuffle有关,在lineage中,父RDD上partition数据分配到子RDD的partition上,一对一,可直接传递数据,不需要...
原创
2018-07-05 11:24:35 ·
299 阅读 ·
0 评论