2021SC@SDUSC
storm代码阅读(六)
2021SC@SDUSC
Task部分阅读(一)
Task
Storm中的Task是最小的执行单位,与Worker,Executor分别对应于进程和线程不同,Task只是逻辑上的执行单位,它需要寄身与Executor中完成运行。一个Executor可以有多个Task,用户定义的Spout和Bolt对象都会被放置在Task上,当Executor收到属于某一个Task的消息时,就会调用与该Task对应的Spout或Bolt对象的相关方法进行处理。
TopologyContext
TopologyContext类继承自WorkerTopologyContext,它对应于某一个Task运行的上下文Bolt的prepare方法以及Spout的open方法均会传入该类的对象。
代码如下:
public class TopologyContext extends WorkerTopologyContext implements IMetricsContext {
private final Integer taskId;
private final Map<String, Object> taskData = new HashMap<>();
private final List<ITaskHook> hooks = new ArrayList<>();
private final Map<String, Object> executorData;
private final Map<Integer, Map<Integer, Map<String, IMetric>>> registeredMetrics;
private final AtomicBoolean openOrPrepareWasCalled;
private final StormMetricRegistry metricRegistry;
// This is updated by the Worker and the topology has shared access to it
private final Map<String, Long> blobToLastKnownVersion;
下面介绍一下该类的成员变量:
taskId:为该上下文对象对应的TaskId。
taskData:为该Task共享的数据。
executorData:为Task所在Executor共享的数据,用于在属于同一Executor的Task之间共享数据。
registeredMetrics和openOrPrepareWasCalled:主要用于系统的内置统计信息中。如在SystemBolt中注册的许多与Task所在Worker相关的信息就属于这类内置统计信息。
hooks:时storm为用户提供的一种拓展机制。用户可以为Bolt或者Spout对象添加相应的回调钩子,利用getHooks获得钩子回调参数。这样用户可以更加灵活的进行一些运行时统计工作。Executor回在适当的时机调用这些钩子方法。
这里涉及的ITaskHook接口定义如下:
public interface ITaskHook {
void prepare(Map<String, Object> conf, TopologyContext context);
void cleanup();
void emit(EmitInfo info);
void spoutAck(SpoutAckInfo info);
void spoutFail(SpoutFailInfo info);
void boltExecute(BoltExecuteInfo info);
void boltAck(BoltAckInfo info);
void boltFail(BoltFailInfo info);
}
例如对于某一个Bolt节点,用户可以实现boltExecute方法,该方法传入BoltExecuteInfo info对象,其中含有执行的消息、taskId以及执行时间等信息,用户可以根据这些信息完成一些自定义功能。目前,这个功能的用处还不多。
BoltExecuteInfo类的定义如下:
public class BoltExecuteInfo {
public Tuple tuple;
public int executingTaskId;
public Long executeLatencyMs; // null if it wasn't sampled