Storm架构

pchexf

已于 2023-07-12 14:30:09 修改

阅读量422

点赞数

文章标签： storm架构

于 2019-09-08 21:48:00 首次发布

本文链接：https://blog.csdn.net/qq_44645104/article/details/100639616

版权

一、概述

http://storm.apache.org/
A Topology with its components
Apache Storm是一款免费开源的分布式实时计算的框架（流处理）
Apache Storm可以非常容易并且可靠的处理无界的流数据，进行实时的分析处理。
Apache Storm支持多种编程语言（1.x版本Clodure 2.x版本Java重构）。适用场景：实时分析，在线的机器学习，持续计算，分布式的RPC，ETL（数据仓库）。Storm性能极其优异：性能测试单个节点每秒能够处理百万条Tuple（类似于kafka中的record）。
Apache Storm可以非常容易和队列和数据库产品进行无缝集成。

二、架构

在这里插入图片描述
storm中服务器节点分为主节点和从节点,Nimbus为主节点和Supervisor为从节点。以及若干组件构成。下面为对一些术语进行简单的介绍:
Nimbus：主节点，是一个调度中心，负责分发任务
Supervisor：从节点，任务执行的地方
Worker：任务工作进程，一个Supervisor中可以有多个Worker。
Executor：Worker进程在执行任务时，会启动多个Executor线程
Topology：任务的抽象概念。由于storm是流式计算的框架，它的数据流和拓扑图很像，所以它的任务就叫topology。
Spout：从数据源获取数据并进行分发。
Bolt：得到Spout或者上一个Bolt的数据,然后进行处理后交给下一个Bolt处理。
Tuple：在storm中，一条数据可以理解为是一个Tuple。

三、Storm Topology基本概念

在这里插入图片描述
拓扑程序中基本概念Streams:
流数据，持续不断产生的数据流Spout: 数据源，类似于Kafka Streaming中Source组件，负责从外部的存储系统获取一条条记录，并且会将这些记录封装为一个Tuple（元组）对象。
Spout将封装好的Tuple发送给下游的Bolt组件，进行加工处理。常用Spout类型IRichSpout(最多一次处理)，IBaseSpout（最少一次处理）
Bolt: 处理器，对接口到的Tuple进行加工处理（产生新的Tuple），继续将新产生的Tuple发射交由下游的Bolt进行处理，常用Bolt类型：IRichBolt,IBaseBolt
Tuple: Storm流数据中的一条记录，Tuple本质是一个可以存放任何类型的List集合Tuple=List(1,true,“zs”), Tuple只能赋值一次(read only)