(collect 收集
//将rdd分布式存储在集群中不同分区的数据 获取到一起 组成一个数组返回
//要注意 这个方法将会把所有数据搞到一个机器内 容易造成内存的溢出 在生产环境下千万慎用
rdd.collect
take 获取前几个数据
val rdd = sc.makeRDD(List(52,31,22,43,14,35))
rdd.take(2)
takeOrdered(n) 先将rdd中的数据进行升序排序 然后取前n个
val rdd = sc.makeRDD(List(52,31,22,43,14,35))
rdd.takeOrdered(3)
top(n) 先将rdd中的数据进行降序排序 然后取前n个
val rdd = sc.makeRDD(List(52,31,22,43,14,35))
rdd.top(3)
map 将函数应用到rdd的每个元素中
val rdd = sc.makeRDD(List(1,3,5,7,9))
rdd.map(_*10)
filter 用来从rdd中过滤掉不符合条件的数据
val rdd = sc.makeRDD(List(1,3,5,7,9));
rdd.filter(_<5);
flatMap 扁平map处理
val rdd = sc.makeRDD(List("hello world","hello count","world
spark"),2)
//Array(Array(hello, world), Array(hello, count), Array(world,
spark))
rdd.map(_.split{