Hive on Spark生产调优之内存管理

数据与算法架构提升之路

已于 2023-03-21 17:55:24 修改

阅读量2.9k

点赞数 1

分类专栏： # Spark 文章标签： Spark on HIve

于 2022-04-28 00:42:05 首次发布

本文链接：https://blog.csdn.net/lzhcoder/article/details/124464074

版权

Spark 专栏收录该内容

20 篇文章 2 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Hive on Spark在生产环境中的调优，特别是内存管理方面。通过分析Spark作业运行原理，强调了Executor和Driver的参数调优，如executor-memory、executor-cores、num-executors等，以及如何根据数据量调整资源参数以提高性能。在10G和100G数据量的实验中，展示了调优后查询时间的显著减少，证明了调优的有效性。

摘要由CSDN通过智能技术生成

前言

之前在Hive on Spark跑测试时，100g的数据量要跑⼗⼏个⼩时，⼀看CPU和内存的监控，发现 POWER_TEST阶段（依次执⾏30个查询）CPU只⽤了百分之⼗⼏，也就是没有把整个集群的性能利⽤起来，导致跑得很慢。因此，如何调整参数，使整个集群发挥最⼤性能显得尤为重要。

Spark作业运⾏原理

详细原理见上图。我们使⽤spark-submit提交⼀个Spark作业之后，这个作业就会启动⼀个对应的Driver进程。根据你使⽤的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个⼯作节点上启动。Driver进程本⾝会根据我们设置的参数，占有⼀定数量的内存和CPU core。⽽Driver进程要做的第⼀件事情，就是向集群管理器（可以是Spark Standalone集群，也可以是其他的资源管理集群，美团·⼤众点评使⽤的是YARN作为资源管理集群）申请运⾏Spark作业需要使⽤的资源，这⾥的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个⼯作