spark学习-35-Spark的Map任务输出跟踪器MapOutputTracker

最新推荐文章于 2023-11-27 23:47:23 发布

九师兄

最新推荐文章于 2023-11-27 23:47:23 发布

阅读量4.4k

点赞数 1

分类专栏：大数据-spark 文章标签： spark MapOutput Tracker

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/78603123

版权

大数据-spark 专栏收录该内容

204 篇文章 480 订阅 ¥49.90 ¥99.00

订阅专栏

本文详细介绍了Spark中的MapOutputTracker，包括其在SparkEnv初始化中的作用、MapOutputTrackerMaster和MapOutputTrackerWorker的功能，以及它们如何协调管理ShuffleMapTasks的输出位置。MapOutputTracker用于跟踪和管理shuffle过程中的map任务输出，加速数据传输给reduce任务。主要功能包括注册和注销Shuffle、获取map输出位置以及维护最新的输出状态。

摘要由CSDN通过智能技术生成

在这里插入图片描述

##1。在sparkEnv的初始化中有这样一段代码来初始化Map任务输出跟踪器MapOutputTracker
　　　mapOutputTracker用于跟踪map阶段任务的输出状态，此状态便于reduce阶段任务获取地址以及中间输出结果。每个map任务或者 reduce任务都会有唯一的标识。分别为mapId和reduceId.每个reduce任务的输入可能是多个map任务的输出，reduce会到各个map任务的所有节点上拉去Block，这一过程交shuffle，每批shuffle过程都有唯一的表示shuffleId。

val mapOutputTracker = if (isDriver) {
      new MapOutputTrackerMaster(conf, broadcastManager, isLocal)
    } else {
      new MapOutputTrackerWorker(conf)
    }

##2。在MapOutputTracker.scala文件中有这么多类

private[spark] sealed trait MapOutputTrackerMessage

private[spark] case class GetMapOutputStatuses(shuffleId: Int)
  extends MapOutp

了解本专栏

九师兄

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录