- map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
- hadoop fs -cat /tmp/lxw1234/1.txt
- hello world
- hello spark
- hello hive
- //读取HDFS文件到RDD
- scala> var data = sc.textFile("/tmp/lxw1234/1.txt")
- data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at :21
- //使用map算子
- scala> var mapresult = data.map(line => line.split("\\s+"))
- mapresult: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at :23