spark系列文章
文章平均质量分 93
iwen513
一只认真搬砖的猿。
展开
-
Spark系列文章二——Spark数据倾斜及调优
摘要相信大家在使用Spark进行大数据计算的时候,都遇到过一个问题——数据倾斜。当发生数据倾斜的时候,spark程序就会发生运行效率低下,甚至发生内存溢出异常,导致任务失败。为了防止这种情况,开发人员就需要使用技术手段进行数据调优,保证Spark运行效率。 本文将从spark数据倾斜的现象、原理、倾斜代码定位及调优四个方面来详细描述Spark数据倾斜及调优,希望小伙伴们看完本文之后会有所收获。一、数据倾斜现象。数据倾斜的体现主要表现在以下两方面。1、任务中极大...原创 2021-10-21 00:00:14 · 252 阅读 · 0 评论 -
Spark系列文章一:Spark 提交任务流程详解
一、spark提交任务流程概述1.1、流程概述1、构建spark执行环境(初始化sparkcont);2、SparkContext向资源管理器注册并申请Executor资源;3、资源管理器分配Executor资源,Executor向资源管理器发送心跳汇报状态;4、Executor向sc注册并申请task;5、sc向Executor发送task,Executor执行task;6、运行完成后,sc向资源管理器申请注销资源。1.2、流程图解(多图)二、spark...原创 2021-10-18 12:47:28 · 8257 阅读 · 1 评论