
spark
文章平均质量分 88
姜嘟嘟
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南(高级篇)
Spark性能优化指南(高级篇) 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中最棘手的问题-数据倾斜,此时spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行的都非常快,但个别task执行极慢,比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见。 原本能够正常执行的spark作业,某天突然报出OO原创 2021-03-04 19:35:35 · 439 阅读 · 1 评论 -
Spark Core配置参数
###Spark Core优化参数配置 应用属性 描述 spark.driver.cores 在集群模式下管理资源时,用于driver程序的CPU内核数量,默认为1;在生产环境的硬件上,这个值可能最小要上调到8或16 spark.driver.maxResultSize 如果应用频繁用此driver程序,建议对这个值的设置高于其默认值1G,0表示没有限制,这个值反应了Spark Action的全部分区中最大的结果集的大小 spark.driver.memory driver进程使用的原创 2021-03-04 16:29:45 · 606 阅读 · 0 评论 -
Spark知识讲解
Spark知识点讲解SparkSpark环境部署Spark简介为什么使用SparkSpark的优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDataFrameSpark RDD概念RDD与DAGRDD的特性RDD编程流程创建RDDRDD分区RDD的操作RDD转换算子RDD常用算子Spark分布式计算原理RDD的依赖关系DAG的工作原理 Spark Spark环境部署 前置条件:完成Scal原创 2021-02-23 15:38:21 · 1037 阅读 · 0 评论