spark(一)spark中map与mapPartitions的区别

一、map与mapPartitions的区别

在 Spark 性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。但是也不一定是每种业务场景都是如此,我们先来说一下两者的区别

  • map 操作:对 RDD 中的每个元素进行操作(可以理解为遍历),比如使用一个function则需要执行该 function n 次,其中 n 为元素个数;执行 1 次 function 只处理 1 个元素(或者称为一条数据),比如 partition 中的元素较多,当前已经处理了 1000 个元素,在内存不足的情况下,Spark 可以通过GC等方法(比如将已处理掉的 1000 个元素从内存中回收)回收内存。因此,通常 map 操作不会导致OOM的异常;
  • mappartition 操作:对 RDD 中每个 partition 的 iterator 进行操作,比如使用一个 function 则每个 partition 只需要各执行该 function 1 次(一个partition中的所有元素被一次传给该 function);执行 1 次 function 需要接收该 partition 中的所有元素,因此一旦元素很多而处理内存不足,就容易导致OOM的异常;
    一般而言,mappartition 的性能更高;初始化操作、数据库访问等操作适合使用

二、 mapPartiton的缺点:

对于一个partition有很多数据的话,一次函数处理可能会导致OOM。普通的map一般不会导致OOM。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值