Storm笔记

最新推荐文章于 2023-12-28 01:16:46 发布

老叮当z

最新推荐文章于 2023-12-28 01:16:46 发布

阅读量211

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/m0_46388026/article/details/111240239

版权

2 篇文章 0 订阅

订阅专栏

流计算概念

实时获取来自不同数据源的海量数据经过实时分析处理，获得有价值的信息。

流计算基本理念

流计算系统要求

高性能、海量式、实时性、分布式、易用性、可靠性

Stream

Storm将流数据Stream描述成一个无限的Tuple序列，这些Tuple序列会以分布式的方式并行地创建和处理
每个tuple是一堆值，每个值都有一个名字，并且每个值可以是任何类型
Tuple本来应该是一个Key-Value的Map，但是由于各个组件之间传递的tuple的字段名称已经事先定义好了，所以tuple只需要按序填入各个Value，所以是一个Value List。

Spout

Bolt

Topology

类似于Hadoop中的job

Stream Groupings

Storm框架设计

在这里插入图片描述

Storm集群采用“Master-Worker”的节点方式
Master节点运行名为“Nimbus”的后台程序（类似于Hadoop中的“JobTracker”），负责在集群范围内分发代码，为Worker分配任务和监测故障
Worker节点运行名为“Supervisor”的后台程序，负责监听分配给他所在机器的工作，即根部Nimbus分配的任务来决定或启动Worker进程，一个Worker节点上同时运行若干个Worker进程
Storm使用Zookeeper来作为分布式协调组件，负责Nimbus和多个Supervisor之间的所有协调工作

在这里插入图片描述

借助于Zookeeper，如果Nimbus进程或者Supervison进程意外终止，重启时也能读取、恢复之前的状态，并继续工作，使Storm极其稳定
Executor，executor是产生于worker进程内部的线程，会执行同一个组件的一个或者多个task，通常来说，task会由并发数指定，而executor的数目会小于task数目，这很合理
实际的数据处理由Task完成