这次继续上次的地方,我这里只挑我个人感觉有意义的方法来讲,有些是内部的private方法,有些是展现给我们的外部可以调用的方法。这里主要讲的方法是他的内部方法withScope,方法如下:
/** * Execute a block of code in a scope such that all new RDDs created in this body will * be part of the same scope. For more detail, see { {org.apache.spark.rdd.RDDOperationScope}}. * * Note: Return statements are NOT allowed in the given body. */ private[spark] def withScope[U](body: => U): U = RDDOperationScope.withScope[U](sc)(body)
我们可以个根据方法上上面的注释了解到:在一个范围内执行代码块,从而使得在这个body内创建的新的RDDS都是同一范围里面的不同部分。那么我们来看方法,首先声明是private方法,同时只在spark包中是有效的。然后定义了一个方法,名字叫做withScope。后面一开始我也有些懵逼,我是这么理解的(如果错了欢迎各位大神不吝赐教,小弟一定认真听教),这里定义了一个泛型,这个泛型是我们自定义的类型,继续往下看,这个函数需要一个参数,这个参数是一个函数。这样我们也就不难理解下面这段代码:
/** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: