2、Flink作业转换-ExecutionGraph

最新推荐文章于 2023-08-26 21:56:24 发布

江城子v3

最新推荐文章于 2023-08-26 21:56:24 发布

阅读量361

点赞数

分类专栏： Flink原理解析文章标签： flink

本文链接：https://blog.csdn.net/jiang7chengzi/article/details/107551157

版权

Flink原理解析专栏收录该内容

20 篇文章 6 订阅

订阅专栏

1 引言

前面两篇文章，我们介绍了StreamGraph 和JobGraph的生成，它们都是在Client客户端创建的。在生成JobGraph后，Client客户端会通过Rest / RPC向Dispatcher发送提交作业的请求，Dispatcher在收到SubmitJob请求后，会启动JobManager对其进行相应的处理。Client客户端提交作业：

org.apache.flink.client.program.ClusterClient.class
/**
* Calls the subclasses' submitJob method. 
* It may decide to simply call one of the run methods or it may perform
* some custom job submission logic.
* @param jobGraph The JobGraph to be submitted
* @return JobSubmissionResult
*/
public abstract JobSubmissionResult submitJob(JobGraph jobGraph, ClassLoader classLoader)    throws ProgramInvocationException;

2 处理SubmitJob请求

Dispatcher在接受到Client客户端提交作业的请求后，会调用内部方法进行处理：

@Override
public CompletableFuture<Acknowledge> submitJob(JobGraph jobGraph, Time timeout) {
    log.info("Received JobGraph submission {} ({}).", jobGraph.getJobID(),jobGraph.getName());
    try {
        if (isDuplicateJob(jobGraph.getJobID())) {
            return FutureUtils.completedExceptionally(
                new JobSubmissionException(jobGraph.getJobID(), "Job has already been submitted."));
        } else {
            // 调用内部方法提交作业
            return internalSubmitJob(jobGraph);
        }
    } catch (FlinkException e) {
        return FutureUtils.completedExceptionally(e);
    }
}

通过追踪源码发现Dispatcher会创建一个JobManagerRunner：

private CompletableFuture<Void> runJob(JobGraph jobGraph) {
    Preconditions.checkState(!jobManagerRunnerFutures.containsKey(jobGraph.getJobID()));
    // 创建 JobManagerRunner
    final CompletableFuture<JobManagerRunner> jobManagerRunnerFuture = createJobManagerRunner(jobGraph);
    jobManagerRunnerFutures.put(jobGraph.getJobID(), jobManagerRunnerFuture);
    return jobManagerRunnerFuture
        .thenApply(FunctionUtils.nullFn())
        .whenCompleteAsync(
            (ignored, throwable) -> {
                if (throwable != null) {
                    jobManagerRunnerFutures.remove(jobGraph.getJobID());
                }
            },getMainThreadExecutor());
}

// JobMaster 构造函数 部分源码
this.executionGraph = createAndRestoreExecutionGraph(jobManagerJobMetricGroup);

然后JobManagerRunner会启动JobMaster服务，在JobMaster的构造函数中会将JobGraph转换成ExecutionGraph：

// JobMaster 构造函数 部分源码
this.executionGraph = createAndRestoreExecutionGraph(jobManagerJobMetricGroup);

// 通过 ExecutionGraphBuilder.buildGraph 将JobGraph转换成ExecutionGraph
private ExecutionGraph createExecutionGraph(JobManagerJobMetricGroup currentJobManagerJobMetricGroup) throws JobExecutionException, JobException {
    return ExecutionGraphBuilder.buildGraph(
        null,
        jobGraph,
        jobMasterConfiguration.getConfiguration(),
        scheduledExecutorService,
        scheduledExecutorService,
        scheduler,
        userCodeLoader,
        highAvailabilityServices.getCheckpointRecoveryFactory(),
        rpcTimeout,
        restartStrategy,
        currentJobManagerJobMetricGroup,
        blobWriter,
        jobMasterConfiguration.getSlotRequestTimeout(),
        log);
}

3 构建ExecutionGraph

JobGraph是一个Job的用户逻辑视图表示，将一个用户要对数据流进行的处理表示为单个DAG图（对应于JobGraph），DAG图由顶点（JobVertex）和中间结果集（IntermediateDataSet）组成，其中JobVertex表示了对数据流进行的转换操作，比如map、flatMap、filter、keyBy等操作，而IntermediateDataSet是由上游的JobVertex所生成，同时作为下游的JobVertex的输入。

而ExecutionGraph是JobGraph的并行表示，也就是实际JobManager调度一个Job在TaskManager上运行的逻辑视图，它也是一个DAG图，是由ExecutionJobVertex、IntermediateResult（或IntermediateResultPartition）组成，ExecutionJobVertex实际对应于JobGraph图中的JobVertex，只不过在ExecutionJobVertex内部是一种并行表示，由多个并行的ExecutionVertex所组成。另外，这里还有一个重要的概念就是Execution，它是一个ExecutionVertex的一次运行Attempt，也就是说，一个ExecutionVertex可能对应多个运行状态的Execution，比如，一个ExecutionVertex运行产生了一个失败的Execution，然后还会创建一个新的Execution来运行，这时就对应这个2次运行Attempt。每个Execution通过ExecutionAttemptID来唯一标识，在TaskManager和JobManager之间进行Task状态的交换都是通过ExecutionAttemptID来实现的。

JobGraph与ExecutionGraph对应关系

在 ExecutionGraph 中节点对应的类是 ExecutionJobVertex，对应的就是 JobGraph 中的 JobVertex
一个 ExexutionJobVertex 都是由一个 JobVertex 生成
一个ExecutionJobVertex在底层等于并行度个ExecutionVertex
一个ExecutionVertex对应一个Execution，它是对 ExecutionVertex 的一次执行，通过 ExecutionAttemptId 来唯一标识
一个IntermediateDataset相当于一个IntermediateResult，一个IntermediateResult分为多个IntermediateResultPartition

构建ExecutionGraph的源码分析可参考：ExecutionGraph的生成

4 总结

Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。

StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。
JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。主要的优化为，将多个符合条件的节点 chain 在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。
ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。

以并行度为2（其中Source并行度为1）的 SocketTextStreamWordCount 为例，四层执行图的演变过程如下图所示：

StreamGraph：根据用户通过 Stream API 编写的代码生成的最初的图。
- StreamNode：用来代表 operator 的类，并具有所有相关的属性，如并发度、入边和出边等。
- StreamEdge：表示连接两个StreamNode的边。
JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。
- JobVertex：经过优化后符合条件的多个StreamNode可能会chain在一起生成一个JobVertex，即一个JobVertex包含一个或多个operator，JobVertex的输入是JobEdge，输出是IntermediateDataSet。
- IntermediateDataSet：表示JobVertex的输出，即经过operator处理产生的数据集。producer是JobVertex，consumer是JobEdge。
- JobEdge：代表了job graph中的一条数据传输通道。source 是 IntermediateDataSet，target 是 JobVertex。即数据通过JobEdge由IntermediateDataSet传递给目标JobVertex。
ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
- ExecutionJobVertex：和JobGraph中的JobVertex一一对应。每一个ExecutionJobVertex都有和并发度一样多的 ExecutionVertex。
- ExecutionVertex：表示ExecutionJobVertex的其中一个并发子任务，输入是ExecutionEdge，输出是IntermediateResultPartition。
- IntermediateResult：和JobGraph中的IntermediateDataSet一一对应。一个IntermediateResult包含多个IntermediateResultPartition，其个数等于该operator的并发度。
- IntermediateResultPartition：表示ExecutionVertex的一个输出分区，producer是ExecutionVertex，consumer是若干个ExecutionEdge。
- ExecutionEdge：表示ExecutionVertex的输入，source是IntermediateResultPartition，target是ExecutionVertex。source和target都只能是一个。
- Execution：是执行一个 ExecutionVertex 的一次尝试。当发生故障或者数据需要重算的情况下 ExecutionVertex 可能会有多个 ExecutionAttemptID。一个 Execution 通过 ExecutionAttemptID 来唯一标识。JM和TM之间关于 task 的部署和 task status 的更新都是通过 ExecutionAttemptID 来确定消息接受者。
物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。
- Task：Execution被调度后在分配的 TaskManager 中启动对应的 Task。Task 包裹了具有用户执行逻辑的 operator。
- ResultPartition：代表由一个Task的生成的数据，和ExecutionGraph中的IntermediateResultPartition一一对应。
- ResultSubpartition：是ResultPartition的一个子分区。每个ResultPartition包含多个ResultSubpartition，其数目要由下游消费 Task 数和 DistributionPattern 来决定。
- InputGate：代表Task的输入封装，和JobGraph中JobEdge一一对应。每个InputGate消费了一个或多个的ResultPartition。
- InputChannel：每个InputGate会包含一个以上的InputChannel，和ExecutionGraph中的ExecutionEdge一一对应，也和ResultSubpartition一对一地相连，即一个InputChannel接收一个ResultSubpartition的输出。

那么 Flink 为什么要设计这4张图呢，其目的是什么呢？Spark 中也有多张图，数据依赖图以及物理执行的DAG。其目的都是一样的，就是解耦，每张图各司其职，每张图对应了 Job 不同的阶段，更方便做该阶段的事情。

江城子v3

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2、Flink作业转换-ExecutionGraph

Dispatcher接收到Client提交的JobGraph形式的Flink Job，会启动一个JobManager将JobGraph转换映射为一个ExecutionGraph，然后根据ExecutionGraph将作业调度起来。
复制链接

扫一扫