RDD怎么找下标，怎么创建数组？

最新推荐文章于 2022-07-12 10:18:17 发布

星之擎

最新推荐文章于 2022-07-12 10:18:17 发布

阅读量2.9k

点赞数

分类专栏：随记文章标签： scala spark

本文链接：https://blog.csdn.net/xingzhiqing/article/details/62056776

版权

随记专栏收录该内容

34 篇文章 0 订阅

订阅专栏

1、RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。

2、从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。

3、因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。

所以接下来的问题就是

一、如何创建RDD

二、如何使用map与reduce

scala> val a = sc.parallelize(1 to 9, 3)
scala> val b = a.map(x => x*2)
scala> a.collect
res10: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
scala> b.collect
res11: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

三、如何看懂spark的API并快速上手？

eg：def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]
f即为输入函数，它处理每个分区里面的内容。每个分区中的内容将以Iterator[T]传递给输入函数f，f的输出结果是Iterator[U]。最终的RDD由所有分区经过输入函数处理后的结果合并起来的。
应用：
cala> val a = sc.parallelize(1 to 9, 3)
scala> def myfunc[T](iter: Iterator[T]) : Iterator[(T, T)] = {
    var res = List[(T, T)]() 
    var pre = iter.next while (iter.hasNext) {
        val cur = iter.next; 
        res .::= (pre, cur) pre = cur;
    } 
    res.iterator
}
scala> a.mapPartitions(myfunc).collect
res0: Array[(Int, Int)] = Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8))

正是rdd的高级函数特性，所以轻松掌握scala，得对java精通。