RDD数据操作
RDD基础
RDD是Spark对数据的核心抽象—弹性分布式数据集(Resilient Distributed DataSet)。RDD表示分布在多个计算节点上不可变的、可以并行操作的元素集合。Spark中对RDD的操作包括创建RDD,转化已有的RDD(transformation)以及调用RDD操作(action)进行求值。
1.1 RDD的创建
RDD的创建有两种方法:读取一个外部数据集,或在驱动器程序里分发驱动器程序的对象集合(比如list和set)
//读取外部数据集 val lines = sc.textFile("/path/to/README.txt") //将已有的集合传给SparkContext的parallelize()方法 val lines = sc.parallelize(List("pandas","panpan"))
1.2 RDD的转化操作(transformation)
转换操作由一个RDD产生