Strom完整攻略（一）

最新推荐文章于 2020-05-19 16:19:04 发布

叫我不矜持

最新推荐文章于 2020-05-19 16:19:04 发布

阅读量896

点赞数

本文链接：https://blog.csdn.net/SmallCatBaby/article/details/90761595

版权

本文详细介绍了Storm的编程模型，包括Spout、Tuple、Bolt和Stream的概念，以及并行度和DAG模型。此外，还阐述了Storm的分发策略，如Shuffle、Field和Direct Grouping等。同时，分析了Storm的架构，如Nimbus、Supervisor、Worker和Zookeeper的角色。最后，探讨了Storm的任务提交流程和Rebalance再平衡机制。

摘要由CSDN通过智能技术生成

前言

Strom特点
进程常驻内存，数据不经过磁盘，在内存中处理，速度非常快，可以达到毫秒（秒）级别

Storm数据传输
采用Netty，基于NIO，更加高效，早期采用ZMQ,但是ZMQ和Strom的license不兼容。

Storm可靠性

异常处理
消息可靠性的保证机制ACK

Strom和其他框架的对比
1.Spark-Streaming 微批处理框架秒级，不是纯流式计算框架和Spark核心之上的计算模型，和Spark的其他组件兼容较好。
2.MR 批处理框架，分钟级别，MR模型，反复启停。
3.Strom 秒（毫秒）级别，流式处理，DAG模型有向无环图，常驻运行，不关闭，独立系统专为流式处理设计。

一.Storm编程模型

Spout：用于持续不断的发送数据
Tuple：数据都被封装进tuple容器，进行传输，Storm中发送数据的基本单元，Tuple不断的向后传输，像水滴一样
Bolt：用于接受并处理数据
Stream：从Spout中源源不断传递数据给Blot，以及上一个Blog传递数据给下一个Blot，所组成的数据通道叫做Stream，Stream默认的名称为default，可以为其指定id。
并行度：可以使用多线程模型，充分利用CPU，可以有效应对高并发，高数据量的应用场景，还可以多台服务器，多节点，多线程运行任务
有向无环图（Directed Acyclic Graph）：对于Storm实时计算逻辑的封装，即通过一系列由数据流相互关联的Spout、Blot所组成的拓扑结构