Druid Task被Overload分配到zk上的流程分析

最新推荐文章于 2022-06-22 09:22:56 发布

_txg

最新推荐文章于 2022-06-22 09:22:56 发布

阅读量499

点赞数

分类专栏： # T-DRUID 文章标签：大数据

本文链接：https://blog.csdn.net/txgANG/article/details/123249154

版权

前言

继前一篇文章关于task被supervisor创建的过程分析，那么task被创建后是怎样分配给zk的呢？task选择middlemanager的策略又是什么？

上图

supervisor创建完task后，会将task扔到一个由TaskMaster创建的TaskQueue中。此后的事情就是如果将TaskQueue中的task进行分配运行了。

TaskQueue会启动一个线程一直运行，用来读取taskqueue队列中的tasks，对于已经准备好的task通过TaskRunner进行run()。而TaskRunner是在TaskMaster中创建的。

TaskRunner中会判断task的状态是否为pending状态，如果是就会对该task进行分配work, 而分配策略默认是根据middlemanager的slot最大空闲数分配的。让后会将work信息、task信息通过jsonMapper进行序列化为byte写到zk的一个能被work识别的路径下面。

上代码

首先从TaskMaster入手，因为TaskMaster是被注入的对象，它管理着TaskQueue和TaskRunner两大对象。

其中TaskRunner是被taskRunnerFactory创建的，而TaskRunner包括：ForkingTaskRunner，RemoteTaskRunner, HttpRemoteTaskRunner 。至于使用哪一个是通过在overload的配置文件中配置的，配置项为：druid.indexer.runner.type=remote/loacl/httpRemote

local表示从本地运行任务
remote表示分配到分布式系统中
httpRemote是在试用期的功能(目前是根据0.16版本分析的)，和remote功能一样，只是httpRemote不通过zk而是直接和middlemanager交互

然后此时创建完TaskQueue之后，taskQueue会进行启动并创建一个持续运行的线程。该线程的作用就是不断的轮询判断taskqueue中的task进行处理，调用taskRunner的run()方法做分配task的处理。

/**
   * Main task runner management loop. Meant to run forever, or, at least until we're stopped.
   */
  private void manage() throws InterruptedException
  {
    log.info("Beginning management in %s.", config.getStartDelay());
    Thread.sleep(config.getStartDelay().getMillis());

    // Ignore return value- we'll get the IDs a