一、基本RDD转换运算:
1、randomSplit运算
可以将整个集合元素,以随机数的方式按照比例分为多个RDD。
此运算会返回Array[org.apache.spark.rdd.RDD[Int]]。
val intRDD=sc.parallelize(List(3,1,2,5,5))
val sRDD=intRDD.randomSplit(Array(0.4,0.6))
sRDD(0).collect()
sRDD(1).collect()
2、groupBy运算
groupBy可以按照传入的匿名规则,将数据分为多个Array。
例如,将整个集合分成奇数和偶数
val gRDD=intRDD.groupBy(
x=>{
if(x%2==0) "even" else "odd"
}
)
gRDD(0) 读取第1个偶数的Array
gRDD(1) 读取第2个奇数的Array
二、多个RDD转换运算
1、union并集运算
intRDD1.union(intRDD2).union(intRDD3).collect()
(intRDD1 ++ intRDD2 ++ intRDD3).collect()
2、intersection交集运算
intRDD1.intersection(intRDD2).collect()
3、subtract差集运算
intRDD1.subtract(intRDD2).collect()
intRDD1是List(3,1,2,5,5),扣除intRDD2 List(5,6)重复的部分5,所以结果是(1,2,3)。
三、基本动作运算
读取第1条数据:intRDD.first
读取前几条数据,例如读取前2条:intRDD.take(2)
按照从小到大排序读取前N条数据,例如读取前3条:
intRDD.takeOrdered(3)
按照从大到小排序读取前N条数据,例如读取前3条:
intRDD.takeOrdered(3)(Ordering[Int].reverse)
四、RDD Key-Value基本转换运算:
val kvRDD1=sc.parallelize(List((3,4),(3,6),(5,6),(1,2)))
kvRDD1.keys.collect()
kvRDD1.values.collect()
kvRDD1.filter{case(key,value)=> key<5}.collect()
kvRDD1.filter{case(key,value)=> value<5}.collect()
1、mapValues运算
可以针对RDD内每一组(key,value)进行运算,并且产生另外一个RDD。
例如:将每一组(key,value)的value进行平方运算
kvRDD1.mapValues(x => x*x).collect
五、多个RDD Key-Value转换运算
val kvRDD1=sc.parallelize(List((3,4),(3,6),(5,6),(1,2)))
val kvRDD2=sc.parallelize(List((3,8)))
1、join运算,可以将两个RDD相同的key值join起来。
kvRDD1.join(kvRDD2).collect()
Result:
(3,(4,8))
(3,(6,8))
2、leftOuterJoin运算
leftOuterJoin会从左边的集合对应到右边的集合,并显示所有左边的集合中的所有元素。
kvRDD1.leftOuterJoin(kvRDD2).collect()
3、rightOuterJoin运算
rightOuterJoin会从右边的集合对应到左边的集合,并显示所有右边的集合中的所有元素。
kvRDD1.rightOuterJoin(kvRDD2).collect()
4、subtractByKey运算
此运算会删除相同key值的数据。
kvRDD1.subtractByKey(kvRDD2).collect()
Result:
Array((1,2),(5,6))
六、Key-Value动作运算
1、countByKey运算,计算每一个key值的条数。
kvRDD1.countByKey()
Result:
Map(1 -> 3,3 -> 2,5 -> 1)
2、collectAsMap运算
var kv=kvRDD1.collectAsMap()
kvRDD1中key=3有两个值4和6,系统只能自动对应到其中的值6。
3、lookup运算
可以使用lookup输入key值来查找value值。
kvRDD1.lookup(3)
kvRDD2.lookup(5)
1、randomSplit运算
可以将整个集合元素,以随机数的方式按照比例分为多个RDD。
此运算会返回Array[org.apache.spark.rdd.RDD[Int]]。
val intRDD=sc.parallelize(List(3,1,2,5,5))
val sRDD=intRDD.randomSplit(Array(0.4,0.6))
sRDD(0).collect()
sRDD(1).collect()
2、groupBy运算
groupBy可以按照传入的匿名规则,将数据分为多个Array。
例如,将整个集合分成奇数和偶数
val gRDD=intRDD.groupBy(
x=>{
if(x%2==0) "even" else "odd"
}
)
gRDD(0) 读取第1个偶数的Array
gRDD(1) 读取第2个奇数的Array
二、多个RDD转换运算
1、union并集运算
intRDD1.union(intRDD2).union(intRDD3).collect()
(intRDD1 ++ intRDD2 ++ intRDD3).collect()
2、intersection交集运算
intRDD1.intersection(intRDD2).collect()
3、subtract差集运算
intRDD1.subtract(intRDD2).collect()
intRDD1是List(3,1,2,5,5),扣除intRDD2 List(5,6)重复的部分5,所以结果是(1,2,3)。
三、基本动作运算
读取第1条数据:intRDD.first
读取前几条数据,例如读取前2条:intRDD.take(2)
按照从小到大排序读取前N条数据,例如读取前3条:
intRDD.takeOrdered(3)
按照从大到小排序读取前N条数据,例如读取前3条:
intRDD.takeOrdered(3)(Ordering[Int].reverse)
四、RDD Key-Value基本转换运算:
val kvRDD1=sc.parallelize(List((3,4),(3,6),(5,6),(1,2)))
kvRDD1.keys.collect()
kvRDD1.values.collect()
kvRDD1.filter{case(key,value)=> key<5}.collect()
kvRDD1.filter{case(key,value)=> value<5}.collect()
1、mapValues运算
可以针对RDD内每一组(key,value)进行运算,并且产生另外一个RDD。
例如:将每一组(key,value)的value进行平方运算
kvRDD1.mapValues(x => x*x).collect
五、多个RDD Key-Value转换运算
val kvRDD1=sc.parallelize(List((3,4),(3,6),(5,6),(1,2)))
val kvRDD2=sc.parallelize(List((3,8)))
1、join运算,可以将两个RDD相同的key值join起来。
kvRDD1.join(kvRDD2).collect()
Result:
(3,(4,8))
(3,(6,8))
2、leftOuterJoin运算
leftOuterJoin会从左边的集合对应到右边的集合,并显示所有左边的集合中的所有元素。
kvRDD1.leftOuterJoin(kvRDD2).collect()
3、rightOuterJoin运算
rightOuterJoin会从右边的集合对应到左边的集合,并显示所有右边的集合中的所有元素。
kvRDD1.rightOuterJoin(kvRDD2).collect()
4、subtractByKey运算
此运算会删除相同key值的数据。
kvRDD1.subtractByKey(kvRDD2).collect()
Result:
Array((1,2),(5,6))
六、Key-Value动作运算
1、countByKey运算,计算每一个key值的条数。
kvRDD1.countByKey()
Result:
Map(1 -> 3,3 -> 2,5 -> 1)
2、collectAsMap运算
var kv=kvRDD1.collectAsMap()
kvRDD1中key=3有两个值4和6,系统只能自动对应到其中的值6。
3、lookup运算
可以使用lookup输入key值来查找value值。
kvRDD1.lookup(3)
kvRDD2.lookup(5)