spark算子讲解

本文介绍了Spark编程中重要的两种算子类型:Transformation和Action。Transformation算子用于转化RDD,延迟执行,而Action算子触发计算并返回结果或保存到外部系统。Transformation是异步且不影响性能,而Action会导致从血缘关系开始的物理转换,消耗性能。了解这些特性对于优化Spark应用至关重要。
摘要由CSDN通过智能技术生成

1 背景

 写spark 程序重要特性就是基于算子开发

 每一个算子都有自己的特性和用途

 某一类算子是性能瓶颈的所在

2 分类

  spark 算子有两种主要的分类

   

 

 3 Transformation

3.1 简介

              用来对RDD进行转化

              每一次 Transformation 操作都会产生新的RDD

              这个操作时延迟执行的

     

 4  Action

4.1 简介

    用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中

 5   两者特点总结

 

   Transformation 是异步的,并不会影响性能

   返回结果int、double、集合(不会返回新的RDD),遇到 Action 操作时,开始从血 缘关系(lineage)源头开始,进行物理的转换操作所以Action的算子是消耗性能的 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值