spark常用算子对比

最新推荐文章于 2024-07-31 15:54:40 发布

L13763338360

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量304

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/L13763338360/article/details/105022220

版权

28 篇文章 1 订阅

订阅专栏

map：对 RDD 中的每个元素进行操作，执行一次function只处理1条数据，处理100条数据要执行100次function；串行处理数据，处理速度慢，通常不会导致OOM
mappartition：遍历RDD的分区，对 RDD 中每个partition的 iterator进行操作，每个partition只需执行一次function；批量处理数据，速度快，可能因数据量大导致OOM。适合情况：批量初始化、批量数据库读写等

forreach：对 RDD 中的每个元素进行操作，执行一次function只处理1条数据，处理100条数据要执行100次function；串行处理数据，处理速度慢，通常不会导致OOM
foreachpartition：对 RDD 中每个partition的 iterator 进行操作，每个partition只需执行一次function；批量处理数据，速度快，可能因数据量大导致OOM。适合情况：批量初始化、批量数据库读写

groupby：对每个key进行操作，但只生成一个sequence；数据没有预聚合，直接进行shuffle，网络开销大
reducebykey：按照key进行分组，数据预聚合，网络开销小；reducebykey相当于groupByKey().map()；速度快，可以防止groupby可能造成的内存溢出问题
aggregatebykey：aggregateByKey()是先对每个partition中的数据根据不同的Key进行aggregate，然后将结果进行shuffle，完成各个partition之间的aggregate；相比reducebykey，可以进一步减小内存压力。aggregateByKey和reduceByKey类似，但更具灵活性，可以自定义在分区内和分区间的聚合操作
combineByKey 与aggregateByKey类似，都调用了combineByKeyWithClassTag