Spark算子--map和mapPartition的区别，配实例讲解

最新推荐文章于 2023-05-12 23:17:30 发布

VIP文章卷曲的葡萄藤

最新推荐文章于 2023-05-12 23:17:30 发布

阅读量9.6k

点赞数 4

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_39043567/article/details/89916221

版权

map和mapParttion都是spark的算子，他们在进行数据处理时有一定的区别：

mapPartiton的优势：

提高性能，比如我们对一个含有100条log数据的分区进行操作，使用map的话函数要执行100次计算。使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。如果map执行的过程中还需要创建对象，比如创建redis连接，jdbc连接等。map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接。

mapPartiton的缺点：

比如以下代码，分析某个报表的时候，我们用mapPartition进行处理，这样一个partition我们创建了一次redis连接，和一个ListBuffer，然后遍历这个分区，将数据存储到ListBuffer中。需要注意的是mapPartition返回的是iterator。

package DMP0505.Repoort

import DMP0505.Bean.Log
import DMP0505.Util.{JedisPools, RptUtils}
import org.apache.commons.lang.StringUtils
i

关注