键值对RDD是对Spark中许多操作所需要的常见数据类型,通常用于聚合计算。先通过ETL(抽取,转换,装载)操作来将数据转化为键值对形式。
1.创建Pair RDD
在scala中使用第一个单词作为key,创建一个pairRDD
val lines=sc.textFile("input/1.txt") val pairs = lines.map(x =>
(x.split(" ")(0),x))
还可以利用SparkContext对象的parallelize方法创建:
val prdd1=sc.parallelize(Se