Hive on Spark生产调优之内存管理

数据与后端架构提升之路

已于 2023-03-21 17:55:24 修改

阅读量2.9k

点赞数 1

分类专栏： # Spark 文章标签： Spark on HIve

于 2022-04-28 00:42:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lzhcoder/article/details/124464074

版权

Spark 专栏收录该内容

12 篇文章 1 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

前言

之前在Hive on Spark跑测试时，100g的数据量要跑⼗⼏个⼩时，⼀看CPU和内存的监控，发现 POWER_TEST阶段（依次执⾏30个查询）CPU只⽤了百分之⼗⼏，也就是没有把整个集群的性能利⽤起来，导致跑得很慢。因此，如何调整参数，使整个集群发挥最⼤性能显得尤为重要。

Spark作业运⾏原理

详细原理见上图。我们使⽤spark-submit提交⼀个Spark作业之后，这个作业就会启动⼀个对应的Driver进程。根据你使⽤的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个⼯作节点上启动。Driver进程本⾝会根据我们设置的参数，占有⼀定数量的内存和CPU core。⽽Driver进程要做的第⼀件事情，就是向集群管理器（可以是Spark Standalone集群，也可以是其他的资源管理集群，美团·⼤众点评使⽤的是YARN作为资源管理集群）申请运⾏Spark作业需要使⽤的资源，这⾥的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个⼯作节点上，启动⼀定数量的Executor进程，每个Executor进程都占有⼀定数量的内存和CPU core。

Spark是根据shuffle类算⼦来进⾏stage的划分。如果我们的代码中执⾏了某个shuffle类算⼦（⽐如reduceByKey、join等），那么就会在该算⼦处，划分出⼀个stage界限来。

了解本专栏

超级会员免费看

数据与后端架构提升之路

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive on Spark生产调优之内存管理

之前在Hive on Spark跑测试时，100g的数据量要跑⼗⼏个⼩时，⼀看CPU和内存的监控，发现 POWER_TEST阶段（依次执⾏30个查询）CPU只⽤了百分之⼗⼏，也就是没有把整个集群的性能利⽤起来，导致跑得很慢。因此，如何调整参数，使整个集群发挥最⼤性能显得尤为重要。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数据与后端架构提升之路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。