spark算子map reduce小案例

RiverCode

于 2017-03-03 15:19:36 发布

阅读量4.2k

点赞数 1

分类专栏： Spark算子文章标签： spark算子 map reduce 小

本文链接：https://blog.csdn.net/RiverCode/article/details/60140593

版权

本文介绍了RDD的两种操作方式——转换和行动操作，详细讲解了map和reduce的用法，并提供了完整的mapAndReduce示例代码。通过实例展示了如何使用map和reduce计算平均值，鼓励读者实践和探索更多可能的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.RDD两种操作方式介绍

转换操作（Transformation）使用了链式调用的设计模式，对一个RDD计算之后，转换为另一个RDD，然后这个RDD又可以经过转换，转换为另一个RDD。这个过程是分布式的，它必须等待行动操作（Action）完成后，才真正的触发Spark提交作业，开始执行计算。

行动操作Action是和转换操作相对应的一种操作，在Spark程序运行中，每调用一次Action操作，都会触发一次Spark的作业提交，并返回相应的结果。

map函数定义如下：

def
map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]
 Permalink
Return a new RDD by applying a function to all elements of this RDD.

map方法将原来的RDD中类型为T的元素，通过用户自定义的函数f按照一对一地映射为U类型的元素。函数f可以是简单的加减，也可以是复杂的将一元组转换为二元组等等。

 val rdd1 = sc.parallelize(List(1,2,3,4))
 val maprdd1 = rdd1