Spark之Action操作

gongpulin

于 2016-05-31 22:50:07 发布

阅读量1.6k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/gongpulin/article/details/51549937

版权

本文介绍了Spark中的Action操作，包括reduce、count、first、take、top、countByKey、collectAsMap和lookup等，通过实例展示了它们的功能和使用方法，帮助理解Spark数据处理。

摘要由CSDN通过智能技术生成

1.reduce(func):通过函数func先聚集各分区的数据集，再聚集分区之间的数据，func接收两个参数，返回一个新值，新值再做为参数继续传递给函数func，直到最后一个元素

2.collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小

3.count()：返回数据集元素个数

4.first():返回数据集的第一个元素

5.take(n):以数组的形式返回数据集上的前n个元素

6.top(n):按默认或者指定的排序规则返回前n个元素，默认按降序输出

7.takeOrdered(n,[ordering]): 按自然顺序或者指定的排序规则返回前n个元素

例1：

def main(args: Array[String]) {
val conf = new SparkConf().setMaster("local").setAppName("reduce")
val sc = new SparkContext(conf)
val rdd = sc.parallelize(1 to 10,2)
val reduceRDD = rdd.reduce(_ + _)
val reduceRDD1 = rdd.reduce(_ - _) //如果分区数据为1结果为 -53