SparkCore>RDD的方法/算子分类

本文介绍了SparkCore中RDD的算子分类,主要包括Transformation转换算子(如映射、过滤等),它们产生新的RDD但惰性求值;Action动作算子(如collect、count等),它们触发计算并返回结果。RDD的设计利用延迟执行优化了DAG执行效率。
摘要由CSDN通过智能技术生成

分类

RDD的算子分为两类:

  • 1.Transformation转换操作:返回一个新的RDD
  • 2.Action动作操作:返回值不是RDD(无返回值或返回其他的)
    在这里插入图片描述
    注意:
    RDD不实际存储真正要计算的数据,而是记录了数据的位置在哪里,数据的转换关系(调用了什么方法,传入什么函数)
    RDD中的所有转换都是惰性求值/延迟执行的,也就是说并不会直接计算。只有当发生一个要求返回结果给Driver的Action动作时,这些转换才会真正运行。

之所以使用惰性求值/延迟执行,是因为这样可以在Action时对RDD操作形成DAG有向无环图进行Stage的划分和并行优化,这种设计让Spark更加有效率地运行。


Transformation转换算子

转换 含义
map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
filter(func) 返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func) 类似于map,但
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值