Topology运行流程
1)提交Topology后,Storm会把代码先存放到Nimbus节点的inbox目录下;之后,把当前Storm运行的配置生成一个stormconf.ser文件放到NImbus节点的stormdist目录中,此目录中同时还有序列化之后的Topology代码文件。
2)在设定Topology关联的Spout和bolt时,可以同时设置当前的spout和bolt的Executor的总和一致。之后,系统根据Worker的数量,尽量将这些Task平均分配到不同的Worker上执行。Worker在哪个Supervisor节点上运行是由Storm本身决定的。
3)在任务分配好之后,Nimbus节点将任务的信息提交到Zookeeper集群,同时在zookeeper集群中有workerbeats,这里存储了当前Topolody所有worker进程的心跳信息。
4)Supervisor节点不断轮询Zookeeper集群,在zookeeper的assignments中保存了所有Topology的任务分配信息、代码存储目录、人物之间的关联关系等,Supervisor通过轮询此节点的内容来领取自己的任务,启动worker进程运行。
5)一个Topology运行之后,不断通过Spout来发送流,通过Bolt来不断处理接收到的流,流是无界的。最后一步会不间断的执行,除非手动结束该Topology。
Topology的方法调用流程
1)每个组件(spout或者bolt)的构造方法和declareOutputFiles方法都只被调用一次
2)open方法和prepare方法被调用多次。在入口函数中设定的setSpout或者setBolt中的并行度参数是指Executor的数量ÿ