Spark/Hive性能优化建议

最新推荐文章于 2024-05-11 23:50:03 发布

Cindy_0124

最新推荐文章于 2024-05-11 23:50:03 发布

阅读量232

点赞数

文章标签： spark 性能优化大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cingdy0124/article/details/132946883

版权

一、查看执行计划和Spark的执行ui界面

不管是spark还是hive，不要相信自己的代码，一定要去看执行计划和spark的执行ui界面。

踩过的坑…一开始还切过hive计算，发现mapjoin不起效果，直接hint方式没用，还需要设置最小的mapjoin数据大小的参数。同时hive中不同的是，如果mapjoin分发内存溢出，那么会有备用执行stage来代替。而spark走了broadcast hash join失败了就是内存溢出就推出了。

二、分析SparkSql慢的原因

spark中分析sql慢的原因可以从以下几点出发：

1）、观察哪个stage慢；

2）、对比执行计划分析到慢的是哪段代码；

3）、慢的原因是什么；

4）、如果倾斜那么可以采用mapjoin,过滤，随机数，union等方式主要看业务；

5）、如果数据不倾斜可能是task的处理量太大导致shuffle write很大，这样就要扩大task数。

三、Spark中的mapjoin最好放一起执行

spark中mapjoin最好放一起执行。是执行顺序的问题。我上面有改几个leftjoin的位置。他这个计划是从上到下来的，多个mapjoin的话会放在一个stage运行。

四、Spark中尽量使用temp view的方式

spark中可以使用temp view的方式，节省写入hdfs和读取hdfs的过程，数据量一大主要读取至少5min已上，比较耗时，这个时候就不建议分步走临时表，会有很大的损耗。

<

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark/Hive性能优化建议

不管是spark还是hive，不要相信自己的代码，一定要去看执行计划和spark的执行ui界面。踩过的坑…一开始还切过hive计算，发现mapjoin不起效果，直接hint方式没用，还需要设置最小的mapjoin数据大小的参数。同时hive中不同的是，如果mapjoin分发内存溢出，那么会有备用执行stage来代替。而spark走了broadcast hash join失败了就是内存溢出就推出了。
复制链接

扫一扫

Cindy_0124 CSDN认证博客专家 CSDN认证企业博客

码龄8年

11: 原创

140万+: 周排名

31万+: 总排名

9716: 访问

: 等级

116: 积分

1: 粉丝

6: 获赞

6: 评论

20: 收藏

私信

关注

热门文章

分类专栏

PYTHON 1篇

最新评论

本地安装Flink
CSDN-Ada助手: 恭喜您写下了第11篇博客！标题“本地安装Flink”听起来非常有趣。我很高兴看到您在持续创作，并分享有关Flink的经验。我建议您在以后的博客中可以考虑探索一些与Flink相关的高级用法或者分享一些实际案例，这样能够帮助更多的读者更好地理解和应用Flink。期待您的下一篇作品！
Spark/Hive性能优化建议
CSDN-Ada助手: 恭喜您第10篇博客的问世！您的“Spark/Hive性能优化建议”无疑为我们这些对大数据分析感兴趣的读者提供了宝贵的指导。我真心希望能看到更多您分享的经验和见解。或许下一步，您可以考虑探讨一些与Spark/Hive相关的实际案例，从中我们可以更深入地了解如何应用这些优化技巧。期待您继续创作，谢谢您的分享！
Spark安装及配置详细步骤
CSDN-Ada助手: 恭喜您完成了第9篇博客！标题中的“Spark安装及配置详细步骤”让我很感兴趣。您的详细步骤对于那些想要学习Spark的人来说一定非常有帮助。不过，我想提一个建议：下一步，您可以考虑分享一些使用Spark解决实际问题的案例或者更深入的配置技巧。这样的话，读者们可以更好地应用Spark到实践中，并解决一些常见的挑战。不过，请原谅我这样谦虚地提出这个建议，因为您已经展示了在Spark安装和配置方面的专业知识。期待您的下一篇博客！
Centos7开启访问端口
CSDN-Ada助手: 恭喜您写了第8篇博客！标题“Centos7开启访问端口”听起来非常有用。您的博客内容对于那些想要在Centos7上设置端口访问的人来说肯定是非常有帮助的。不过，如果可能的话，我想建议您在下一篇博客中加入更多实际操作的步骤和示例，这将使读者更容易理解并成功实施。期待看到更多精彩的博客文章！
Python连接Mysql 1044 Error
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“Python连接Mysql 1044 Error”很吸引人。我想说你的博客内容一直都很有价值，特别是针对Python和数据库的连接问题，帮助了很多读者解决困扰。对于这篇博客，我觉得你解释了1044错误问题的原因和解决方法非常清楚，让读者能够迅速找到答案。接下来，我建议你可以考虑探索更多关于Python和Mysql的连接问题，比如其他常见的错误以及更高级的连接技巧。期待你的下一篇博客，再次感谢你的分享！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。