【RDD编程】map和mapPartitions

最新推荐文章于 2024-06-02 20:32:01 发布

腾阳山泥若

最新推荐文章于 2024-06-02 20:32:01 发布

阅读量863

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_43486780/article/details/107733350

版权

Spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

map和mapPartitions

map针对RDD中的每一个元素调用一次函数，而mapPartitions针对RDD中每个Partition调用一次函数，假设RDD有N个元素，有M个分区，那么map的函数的将被调用N次，而mapPartitions被调用M次。，因此在编写map和mapPartitions的函数时需要有一个概念，map传入的是RDD的一个元素，而mapPartitions传入的是RDD的一个分区。

如下可见mapFun和mappartitionFun的区别

def mapFun(x):
    return x+2


def mappartitionFun(xlist):
    return [x+2 for x in xlist]


def _main():
    # set sparkcontext
    conf = SparkConf().setMaster("local[*]").setAppName("My App")
    sc = SparkContext(conf=conf)
    sc.setLogLevel("ERROR")

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6])
    # res = rdd.mapPartitions(mappartitionFun)
    res = rdd.map(mapFun)
    res.collect()

    # stop spark
    sc.stop()

两者对比

加入函数内存在数据库连接、文件创建关闭等操作，则map每次调用都会创建一次连接和文件句柄，导致性能十分低，而mapPartitions只在每个Partition中创建一次，效率高。但是mapPartitions会存在OOM问题，即内存溢出，例如当一个partition的数据量超出内存限制时一次性载入函数中会导致OOM，而map就不会存在这样的情况因为它每次处理一条数据，当内存不足时可以将以前处理好的数据从内存中垃圾回收，腾出空间。

腾阳山泥若

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【RDD编程】map和mapPartitions

map和mapPartitionsmap针对RDD中的每一个元素调用一次函数，而mapPartitions针对RDD中每个Partition调用一次函数，假设RDD有N个元素，有M个分区，那么map的函数的将被调用N次，而mapPartitions被调用M次。，因此在编写map和mapPartitions的函数时需要有一个概念，map传入的是RDD的一个元素，而mapPartitions传入的是RDD的一个分区。如下可见mapFun和mappartitionFun的区别def mapFun(x):
复制链接

扫一扫

专栏目录