spark常用算子对比

map和mappartition

  • map:对 RDD 中的每个元素进行操作,执行一次function只处理1条数据,处理100条数据要执行100次function;串行处理数据,处理速度慢,通常不会导致OOM
  • mappartition:遍历RDD的分区,对 RDD 中每个partition的 iterator进行操作,每个partition只需执行一次function;批量处理数据,速度快,可能因数据量大导致OOM。适合情况:批量初始化、批量数据库读写等

foreach和foreachpartition

  • forreach:对 RDD 中的每个元素进行操作,执行一次function只处理1条数据,处理100条数据要执行100次function;串行处理数据,处理速度慢,通常不会导致OOM
  • foreachpartition对 RDD 中每个partition的 iterator 进行操作,每个partition只需执行一次function;批量处理数据,速度快,可能因数据量大导致OOM。适合情况:批量初始化、批量数据库读写

map和foreach

  • map:是transformation操作;返回一个新的RDD
  • foreach:是 action操作;不会返回一个新的RDD

map和flatmap和flatmaptopair

  • map:对集合中每个元素进行操作;结果返回一个新对象
  • flatmap:对集合中每个元素进行操作,然后再扁平化;结果返回一个或者多个新对象
  • flatmaptopair:在flatmap函数基础上将返回的数据转换为了1个Tuple,即 key-value 格式的数据

groupby和reducebykey和aggregatebykey

  • groupby:对每个key进行操作,但只生成一个sequence;数据没有预聚合,直接进行shuffle,网络开销大
  • reducebykey:按照key进行分组,数据预聚合,网络开销小;reducebykey相当于groupByKey().map();速度快,可以防止groupby可能造成的内存溢出问题
  • aggregatebykey:aggregateByKey()是先对每个partition中的数据根据不同的Key进行aggregate,然后将结果进行shuffle,完成各个partition之间的aggregate;相比reducebykey,可以进一步减小内存压力。aggregateByKey和reduceByKey类似,但更具灵活性,可以自定义在分区内和分区间的聚合操作
  • combineByKey 与aggregateByKey类似,都调用了combineByKeyWithClassTag

coalesce和repartition

  • coalesce:重新分区,可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定
  • repartition:实际上是调用的coalesce,默认是进行shuffle的

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值