util.clj
async-loop
函数会创建一个线程,并后台循环执行传入的函数afn。afn返回值是一个整数,async-loop以该返回值为执行时间间隔。
disruptor.clj
consume-loop*
函数(*表示有副作用)会不断从queue中取出消息,并回调handler去处理这些消息。由于async-loop接收的函数返回值为0,所以会无间隔持续执行。
线程模型图
在Storm中,一个Topology由Bolt和Spout组成,他们的实例叫做Task,是最小逻辑执行单元。调度也是以Task为对象。可以调度的资源,Worker对应进程,Executor对应为最小调度资源,可类比为线程。一个Executor中可以执行多个Task的逻辑,但是Storm中默认是一个Task。
如图中,每个Worker进程中除去连接zk的worker心跳线程外(未画出),有两个工作线程,用于和其他Worker进程通信。·worker-rx-thread
收到来自其他Worker的消息后,消息格式为<target-task-id, serialized-tuples-msg>
,根据消息的target-task-id
及存储有Executor中第一个Task的task-id
和对应的executor-rx-queue
关系的short-executor-receive-queue-map
,worker-rx-thread
确定将该消息发送给对应Executor的executor-rx-queue
。
所有Executor有一个共用的心跳线程,用于向zk上报每个Executor的状态。每个Executor中至少有两个工作线程,两个工作队列(DisruptorQueue),executor-rx-thread
负责不停的消费executor-rx-queue
中的Tuple消息,Spout是不断执行nextTuple()
方法,Bolt是不断执行execute()
方法,然后将产生的新消息放到executor-tx-queue
中。executor-tx-thread
则不停从tx-queue
里面获取消息,如果这个消息要发送的Task在当前Worker进程内,则通过进程内通信将该消息发送给对应executor-rx-queue
,否则将消息序列化后发送给worker-tx-queue
,由worker-tx-thread
统一发送给其他Worker的worker-rx-thread
。一个Worker进程中的所有Executor的executor-rx-queue
都保存在该Worker的executor-receive-queue-map
中。
在1.0.x后Storm版本中,不同Worker间通过Netty进行点对点消息发送,更早是使用ZMQ。