目录
一、概念
Storm 是一个免费并开源的分布式实时计算系统。利用 Storm 可以很容易做到可靠地处理无限的 数据流,像 Hadoop 批量处理大数据一样,Storm 可以实时处理数据。
1)Nimbus(master节点:代码分发给 Supervisor)
Storm 集群的 Master 节点,负责分发用户代码,指派给具体的 Supervisor 节点上的 Worker 节点,去运行 Topology 对应的组件(Spout/Bolt)的 Task。
2)Supervisor(slave节点:管理 Worker 进程的启动和终止)
Storm 集群的从节点,负责管理运行在 Supervisor 节点上的每一个 Worker 进程的启动和终止。 通过 Storm 的配置文件中的 supervisor.slots.ports 配置项,可以指定在一个 Supervisor 上最大允许多少个 Slot,每个 Slot 通过端口号来唯一标识,一个端口号对应一个 Worker 进程(如果该 Worker 进程被启动)。
3)Worker(具体处理组件逻辑的进程)
运行具体处理组件逻辑的进程。Worker 运行的任务类型只有两种,一种是 Spout 任务,一种是Bolt 任务。
4)Task
worker 中每一个 spout/bolt 的线程称为一个 task. 在 storm0.8 之后,task 不再与物理线程对应, 不同 spout/bolt 的 task 可能会共享一个物理线程,该线程称为 executor。
5)ZooKeeper
用来协调 Nimbus 和 Supervisor,如果 Supervisor 因故障出现问题而无法运行 Topology, Nimbus 会第一时间感知到,并