官方链接:
http://storm.apache.org/releases/1.2.2/Concepts.html
核心概念
Topologies
拓扑,将整个流程串起来
Streams
流,数据流,水流
Spouts
产生数据/水的东西
Bolts
处理数据/水的东西 水壶/水桶
Tuple
数据/水
Storm核心概念理解记忆之地铁运行模型
制约中国互联网发展的最大瓶颈是什么? 后厂村路
13号线:回龙观==>龙泽==>西二旗
Storm核心概念理解记忆之Storm
Storm核心概念总结
-
Topology: 计算拓扑,由spout和bolt组成的:
实时应用程序的逻辑打包到Storm拓扑中。Storm拓扑类似于MapReduce作业。一个关键的区别是MapReduce作业最终会完成,而拓扑会永远运行(当然,除非您终止它)。Topology是Stream相连接的Bolt和Spout组成的图。 -
Stream:消息流,抽象概念,没有边界的tuple构成:
流是Storm中的核心抽象概念。流是以分布式方式并行处理创建的无界元组序列。流是用一个模式定义的,该模式命名流元组中的字段。默认情况下,元组可以包含整数、长、短、字节、字符串、双数、浮点数、布尔值和字节数组。您还可以定义自己的序列化器,以便自定义类型可以在元组中本机使用。 -
Tuple:(元组)消息/数据 传递的基本单元
Stream由tuple构成 -
Spout:消息流的源头,Topology的消息生产者
Spout是Topology中的stream源。通常,spouts将从外部源读取tuple并将它们发送到Topology(例如,Kestrel队列或Twitter API)。Spout可以是可靠的,也可以是不可靠的。如果一个可靠的Spout没有被Storm处理,那么它就能够重新处理tuple,而一个不可靠的喷口一旦发出tuple就会忘记这个tuple。 -
Bolt:消息处理单元,可以做过滤、聚合、查询/写数据库的操作
Topology中的所有处理都是在Bolt中完成的。bolt可以做任何事情,从过滤、函数、聚合、连接、到与数据库对话等等。