算子调优

最新推荐文章于 2023-12-17 18:06:43 发布

赤焰123

最新推荐文章于 2023-12-17 18:06:43 发布

阅读量198

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_35419086/article/details/79877732

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1.MapPartitions提升Map类操作性能：MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。

2.filter过后使用coalesce减少分区数量：主要就是用于在filter操作之后，针对每个partition的数据量各不相同的情况，来压缩partition的数量。减少partition的数量，而且让每个partition的数据量都尽量均匀紧凑。从而便于后面的task进行计算操作，在某种程度上，能够一定程度的提升性能。

3.使用foreachPartition优化写数据库性能：用了foreachPartition算子的好处：对于我们写的function函数，就调用一次，一次传入一个partition所有的数据；主要创建或者获取一个数据库连接就可以；只要向数据库发送一次SQL语句和多组参数即可。

4.使用repartition解决Spark SQL低并行度的性能问题：repartition算子，你用Spark SQL这一步的并行度和task数量，肯定是没有办法去改变了。但是呢，可以将你用Spark SQL查询出来的RDD，使用repartition算子，去重新进行分区，此时可以分区成多个partition，比如从20个partition，分区成100个。然后呢，从repartition以后的RDD，再往后，并行度和task数量，就会按照你预期的来了。就可以避免跟Spark SQL绑定在一个stage中的算子，只能使用少量的task去处理大量数据以及复杂的算法逻辑。

5.reduceByKey本地聚合：用reduceByKey对性能的提升：在本地进行聚合以后，在map端的数据量就变少了，减少磁盘IO。而且可以减少磁盘空间的占用；下一个stage，拉取数据的量，也就变少了。减少网络的数据传输的性能消耗；在reduce端进行数据缓存的内存占用变少了；reduce端，要进行聚合的数据量也变少了。

赤焰123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算子调优

1.MapPartitions提升Map类操作性能：MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。2.filter过后...
复制链接

扫一扫