Spark Rdd map和mapPartitions效率问题

最新推荐文章于 2023-04-28 15:14:14 发布

sunrising_hill

最新推荐文章于 2023-04-28 15:14:14 发布

阅读量1.3k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/sunrising_hill/article/details/79359203

版权

Spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

当map和mapPartitions参数中的方法并没有额外开销时，比如创建数据库连接，申请其他资源时，使用map比mapPartitions的效率要高，但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时，那么使用mapPartitions并且只创建一次可复用资源的效率更高。

map中只是简单的通过Gson将字符串转换为HashMap对象：

    // 16 9 6 2 4 7 3 4
    var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
    //  6 5 3 2 2 3 2 3

  var sourceMidRowPairRdd = sc.textFile(filePath).map(logLineToMap)

由于操作比较简单，map方法的执行时间普遍要比 mapPartitions 方法快一些，此时使用map更合适。

优惠劵

sunrising_hill

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Rdd map和mapPartitions效率问题

当map和mapPartitions参数中的方法并没有额外开销时，比如创建数据库连接，申请其他资源时，使用map比mapPartitions的效率要高，但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时，那么使用mapPartitions并且只创建一次可复用资源的效率更高。map中只是简单的通过Gson将字符串转换为HashMap对象： // 16 9 6 ...
复制链接

扫一扫