在上一篇,我们对Storm集群进行了搭建,并使用Java完成了代码的演示,我们知道在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。
一个拓扑中包括spout
和bolt
两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。
在Storm中,一个task可以简单的理解为在集群某节点上运行的一个spout或者bolt实例。在集群运行运行中,topology主要有四个组成部分:他们从低到高分别是:task(bolt/spout实例)、Executor(线程)、Workers(JVM虚拟机)、Nodes(服务器)
各个部分的含义如下:
(1)Nodes(服务器):是指配置在一个Storm集群中的服务器,会执行topology的一部分运算。一个Storm集群可以包括一个或者多个工作node。
(2)Workers(JVM虚拟机):是指一个node节点服务器上相互独立运行的JVM进程。每一个node可以配置运行一个或者多个worker。一个topology会分配到一个或者多个worker上运行。
(3)Executor(线程):是指一个worker的JVM进程中运行的Java线程。多个task可以指派给同一个executor来执行。除非是明确指定,Storm默认会给每一个executor分配一个task。
(4)