Storm基本概念理解

网世侠客

已于 2023-09-22 17:03:11 修改

阅读量340

点赞数 2

分类专栏：流式计算文章标签： storm

于 2019-07-30 00:18:14 首次发布

本文链接：https://blog.csdn.net/qq_39273286/article/details/97697965

版权

流式计算专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一基本组件介绍

核心组件图解

Nimbus ：Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件（Spout/Bolt）的Task。
Supervisor ：Storm集群的从节点，负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件中的supervisor.slots.ports配置项，可以指定在一个Supervisor上最大允许多少个Slot，每个Slot通过端口号来唯一标识，一个端口号对应一个Worker进程（如果该Worker进程被启动）。
ZooKeeper ：用来协调Nimbus和Supervisor，如果Supervisor因故障出现问题而无法运行Topology，Nimbus会第一时间感知到，并重新分配Topology到其它可用的Supervisor上运行。

抽象静态组件

Topology ：Storm对一个分布式计算应用程序的抽象，目的是通过一个实现Topology能够完整地完成一件事情（从业务角度来看）。一个Topology是由一组静态程序组件（Spout/Bolt）、组件关系Streaming Groups这两部分组成。
Spout ：描述了数据是如何从外部系统（或者组件内部直接产生）进入到Storm集群，并由该Spout所属的Topology来处理，通常是从一个数据源读取数据，也可以做一些简单的处理（为了不影响数据连续地、实时地、快速地进入到系统，通常不建议把复杂处理逻辑放在这里去做）。
Bolt ：描述了与业务相关的处理逻辑。

抽象动态组件

Task ：Spout/Bolt在运行时所表现出来的实体，都称为Task，一个Spout/Bolt在运行时可能对应一个或多个Spout Task/Bolt Task
Worker ：运行时Task所在的一级容器，Executor运行于Worker中，一个Worker对应于- - Supervisor上创建的一个JVM实例
Executor ：运行时Task所在的直接容器，在Executor中执行Task的处理逻辑；一个或多个Executor实例可以运行在同一个Worker进程中，一个或多个Task可以运行于同一个Executor中；在Worker进程并行的基础上，Executor可以并行，进而Task也能够基于Executor实现并行计算
应用层面worker>excutor>task,task可以理解spout节点，excutor理解成线程，worker理解成进程一般和JVM实例对等，excutor一般与topology对等，当spout/bolt创建多个节点时，可能在同一个worker中的节点会被划归为同一个task，当然还会存在节点会被随机分发的其他worker中

总的来说，一个Worker就是工作节点上（Supervisor）运行的一个JVM实例，相当于一个物理进程，一个Supervisor又可以启动多个JVM实例。worker是在提交topology后所产生，一个worker只属于一个topology，一个topology可以含有多个worker，当topology被终止时，因它产生的worker都会终止。一个task就是spout/bolt运行中所产生的实体，一个executor就是在worker上启动的一个物理线程，默认情况一个物理线程只包含一个task，所以也有人说executor=thread=task,但是有的时候spout/bolt产生的task也会共享一个物理线程，这个时候等式就不能成立。

二 Stream Grouping类型

Storm中最重要的抽象，应该就是Stream grouping了，它能够控制Spot/Bolt对应的Task以什么样的方式来分发Tuple，将Tuple发射到目的Spot/Bolt对应的Task：

Storm里面有7种类型的stream grouping

Shuffle Grouping: 随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目大致相同。
Fields Grouping：按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts里的一个task，而不同的userid则会被分配到不同的bolts里的task。
All Grouping：广播发送，对于每一个tuple，所有的bolts都会收到。
Global Grouping：全局分组，这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
Non Grouping：不分组，这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果， 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。
Direct Grouping：直接分组，这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id （OutputCollector.emit方法也会返回task的id）。
Local or shuffle grouping：如果目标bolt有一个或者多个task在同一个工作进程中，tuple将会被随机发生给这些tasks。否则，和普通的Shuffle Grouping行为一致。

三流式计算一般架构图

其中flume用来获取数据。
Kafka用来临时保存数据。
Strom用来计算数据。
Redis是个内存数据库，用来保存数据。

网世侠客

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Storm基本概念理解

一基本组件介绍核心组件图解 Nimbus ：Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件（Spout/Bolt）的Task。 Supervisor ：Storm集群的从节点，负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件...
复制链接

扫一扫