1.RDD两种操作方式介绍
1.1 转换操作(Transformation)
转换操作(Transformation)使用了链式调用的设计模式,对一个RDD计算之后,转换为另一个RDD,然后这个RDD又可以经过转换,转换为另一个RDD。这个过程是分布式的,它
必须等待行动操作(Action)完成后,才真正的触发Spark提交作业,开始执行计算。
1.2行动操作(Action)
行动操作Action是和转换操作相对应的一种操作,在Spark程序运行中,每调用一次Action操作,都会触发一次Spark的作业提交,并
返回相应的结果。
2.转换操作map()介绍
map函数定义如下:
def
map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]
Permalink
Return a new RDD by applying a function to all elements of this RDD.
map方法将原来的RDD中类型为T的元素,通过用户自定义的函数f按照一对一地映射为U类型的元素。函数f可以是简单的加减,也可以是复杂的将一元组转换为二元组等等。
val rdd1 = sc.parallelize(List(1,2,3,4))
val maprdd1 = rdd1