![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
辣鸡翅17
Coding for Truth
展开
-
Spark学习|Spark中的四种Join操作
文章目录1.四种Join操作1.1 join1.2 leftOuterJoin1.3 rightOuterJoin1.4 fullOuterJoin2.Option对象为什么要使用Option1.四种Join操作Join操作在特征提取的过程是一个经常使用的操作,当从多个数据源提取特征之后,使用Join操作将数据合并成一个完整的特征数据,以供后续的使用。这里记录Spark中的四种Join操作的...原创 2019-06-11 09:51:27 · 3744 阅读 · 0 评论 -
Spark学习笔记(三)| Shuffle解析
文章目录1.Shuffle 核心要点1.1 ShuffleMapStage 与 FinalStage1.2 Shuffle中的任务个数1.3 reduce端数据读取2.HashShuffle解析2.1 未经优化的HashShuffleManager2.2 经过优化的HashShuffleManager3.SortShuffle解析3.1 普通运行机制3.2 bypass运行机制1.Shuffle...原创 2019-07-08 00:18:11 · 184 阅读 · 0 评论 -
Spark学习笔记(四)| Spark内存管理
文章目录1.堆内和堆外内存规划1.1 堆内内存1.1.1 内存申请与释放1.2 堆外内存2.内存空间分配2.1 静态内存管理(Spark1.6版本以前)2.2 统一内存管理(Spark1.6以后)3.存储内存(Storage)管理3.1 RDD的持久化机制3.2 RDD的缓存过程3.3 淘汰与落盘主要需要学习的Executor上面的内存管理1.堆内和堆外内存规划作为一个JVM进程,Exec...原创 2019-07-08 00:24:31 · 278 阅读 · 0 评论 -
Spark学习笔记(二)| Spark任务调度机制
文章目录1. Spark任务调度概述2. Spark通信机制3. 任务调度过程3.1 Spark Stage 级调度3.2 Spark Task 级调度3.2.1 调度策略3.2.2 本地化调度3.2.3 失败重试与黑名单机制1. Spark任务调度概述当Driver任务启动之后,Driver则会根据用户程序逻辑准备任务,并根据Executor资源情况逐步分发任务。一个Spark应用程序包括...原创 2019-06-25 00:23:18 · 625 阅读 · 0 评论 -
Spark学习笔记(一)| 任务运行及部署模式
文章目录1.Spark内核概念1.1 Spark运行流程简介1.2 基础概念DriverExecutor2.四种部署模式运行机制2.1 Standalone模式运行机制2.1.1 Standalone-Client模式2.1.2 Standalone-Cluster模式2.2 YARN模式运行机制2.2.1 YARN-Client模式2.2.2 YARN-Cluster模式2.3 Client模式...原创 2019-06-25 00:30:32 · 321 阅读 · 0 评论