Hive on Spark生产调优之组件参数配置

Hive on Spark调优指南：组件参数配置与最佳实践

数据与算法架构提升之路

已于 2023-03-21 17:45:15 修改

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： # Spark 文章标签：大数据 spark

于 2023-01-06 14:43:59 首次发布

本文链接：https://blog.csdn.net/lzhcoder/article/details/128578636

Spark 专栏收录该内容

24 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了在Hive on Spark环境中进行生产调优的关键参数配置，包括Executor、Driver和Hive参数。推荐开启Executor的动态分配，调整executor和driver的内存与核心数，优化Hive的map join转换阈值和文件合并策略。此外，还提到了其他的调优技巧，如使用kryo序列化和缓存策略，以及在开发中优先选择DataFrame和DataSet。

--name datafiles_demo

--driver-memory 4g

--num-executors 10

--executor-cores 4

--executor-memory 8g

--queue eng

--conf spark.driver.extraJavaOptions="-Dlogback.configurationFile=logback/logback-stg.xml"

--conf spark.executor.extraJavaOptions="-Dlogback.configurationFile=logback/logback-stg.xml"

//--conf spark.driver.extraJavaOptions="-Dlog4j.configuration=log4j-local.properties"

--conf spark.sql.catalogImplementation=hive

--conf spark.sql.shuffle.partitions=100

--conf spark.executor.memoryOverhead=1024

--conf spark.task.maxFailures=3 --conf spark.shuffle.io.maxRetries=10

--conf spark.executor.userClassPathFirst=true

--conf spark.driver.userClassPat