- 博客(2)
- 收藏
- 关注
原创 spark 2.x RDD源码解读
/** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. This class contains t...
2018-02-09 22:59:18 536
原创 spark RDD依赖类型
sparkRDD依赖RDD的最重要的特性之一就是血缘关系,血缘关系描述了一个RDD是如何从父RDD计算得来的。其中Dependency的rdd方法返回一个RDD,及所依赖的RDD.abstract class Dependency[T] extends Serializable { def rdd: RDD[T]}Dependency分为两种, narrow和shuffleNarrowDep...
2018-02-09 21:36:44 712
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人