Spark优化有哪些

不良人-程序星

已于 2024-02-01 12:51:31 修改

阅读量477

点赞数 10

文章标签： spark 大数据分布式 python hive 数据库开发 etl工程师

于 2024-01-25 17:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80747901/article/details/135835332

版权

1、避免创建重复的RDD

2、尽可能复⽤同⼀个RDD

3、对多次使⽤的RDD进⾏持久化

4、尽量避免使⽤shuffle类算⼦

5、使⽤map-sid预聚合的shuffle操作

所谓的map-side预聚合，说的是在每个节点本地对相同的key进⾏⼀次聚合操作，类似MapReduce中的本地combiner。map-side预聚合之后，每个节点本地就只会有⼀条相同的key，因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时，就会⼤⼤减少需要拉取的数据数量，从⽽也就减少了磁盘IO以及⽹络传输开销。如reduceByKey或者aggregateByKey代替groupByKey。

6、使⽤⾼性能算⼦

⽐如使⽤reduceByKey/aggregateByKey替代groupByKey

使⽤mapPartitions替代普通map

使⽤foreachPartitions替代foreach

使⽤filter之后进⾏coalesce操作

7、⼴播⼤变量

有时在开发过程中，会遇到需要在算⼦函数中使⽤外部变量的场景（尤其是⼤变量，⽐如100M以上的⼤集合），那么此时就应该使⽤Spark的⼴播（Broadcast）功能来提升性能。

8、调整参数

⽐如num-executors，executor-memory，executor-cores，driver-memory 等参数

不良人-程序星

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Spark优化有哪些

所谓的map-side预聚合，说的是在每个节点本地对相同的key进⾏⼀次聚合操作，类似MapReduce中的本地combiner。map-side预聚合之后，每个节点本地就只会有⼀条相同的key，因为多条相同的key都被聚合起来了。有时在开发过程中，会遇到需要在算⼦函数中使⽤外部变量的场景（尤其是⼤变量，⽐如100M以上的⼤集合），那么此时就应该使⽤Spark的⼴播（Broadcast）功能来提升性能。5、使⽤map-sid预聚合的shuffle操作。3、对多次使⽤的RDD进⾏持久化。
复制链接

扫一扫

不良人-程序星 CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

141万+: 周排名

15万+: 总排名

5144: 访问

: 等级

231: 积分

91: 粉丝

111: 获赞

5: 评论

71: 收藏

私信

关注

热门文章

最新评论

Hive建表时为何要分区分桶，有哪些好处？
CSDN-Ada助手: 恭喜您写了第11篇博客！标题很吸引人，我对Hive建表时分区分桶的好处也很感兴趣。通过分区分桶，可以更加高效地管理和查询数据，提升查询性能。此外，它还可以减少数据倾斜和降低磁盘空间的占用，对于大规模数据处理来说尤为重要。在阅读您的博客后，我希望您能进一步探讨一些实际应用场景，比如如何选择合适的分区和桶的策略，以及如何优化查询性能等方面的内容。这样能够让读者更好地理解和应用这些概念。再次恭喜您的连续创作，期待您下一篇博客的发布！谦虚地提出建议，希望能够给您一些启发。
Spark任务的执⾏流程
CSDN-Ada助手: 恭喜您能够写出如此深入的文章，对Spark任务的执行流程进行了详细的介绍，让读者受益匪浅。希望您能继续保持创作的热情，也建议您可以探讨一下Spark任务执行中的优化技巧，或者是与其他大数据处理框架的对比分析，这样会更加丰富您的博客内容。期待您的下一篇文章！
Hive优化
CSDN-Ada助手: 非常祝贺你撰写了第7篇博客《Hive优化》！持续创作是一个很了不起的成就，你的努力和热情值得称赞。通过这篇博客，你向读者分享了关于Hive优化的知识，这对于那些对于提升Hive性能感兴趣的读者来说一定非常有价值。在下一步的创作中，我想向你提出一个建议，那就是多探索一些实际案例来支持你的观点。通过分享一些你在Hive优化方面的实践经验，读者能更好地理解和应用你的建议。此外，你还可以考虑将一些常见的Hive优化问题列举出来，并提供相应的解决方案。这样，读者将能够更好地应对各种挑战，并更好地了解如何优化他们自己的Hive环境。总之，我非常期待你未来的创作，并希望你能继续分享有关Hive优化的知识。谦虚地说，你的博客已经帮助了很多人，而你的下一篇文章将进一步拓宽读者的视野。祝你继续取得更大的成功！
天数连续登录问题
CSDN-Ada助手: 非常棒的博文！你对于天数连续登录问题的探讨非常详细，代码也很清晰易懂。希望你能继续创作，分享更多有趣的技术问题和解决方案。除了你在博文中提到的代码实现，还可以考虑一些扩展知识和技能。比如，你可以介绍一些常见的登录验证方式，如基于令牌的身份验证、双因素认证等，以及它们在保护用户账号安全方面的作用。另外，你还可以探讨一些用户登录行为分析的方法，通过分析用户的登录模式和习惯，提升用户体验和安全性。希望以上建议能对你有所帮助，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
常用的linux命令
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“常用的linux命令”，这是一个非常实用的主题。通过您的分享，读者们可以学习到关于Linux命令的常见用法，对于初学者来说，这无疑是一份宝贵的参考资料。我希望您能够继续保持创作的热情，分享更多关于Linux的知识和经验。在下一篇博客中，或许您可以探索一些高级的Linux命令，或者分享一些实际应用场景下的技巧与技巧。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。