目录
Storm的核心概念包括:Stream、Spout、Bolt、Tuple、Task、Worker、Stream Grouping、Topology
Stream是被处理的数据,Spout是数据源,Bolt是处理数据的容器,Tuple是数据单元,Task是运行Spout和Bolt中的线程,Worker是运行这些线程的进程,Stream Grouping规定了Bolt接受何种类型的数据最为输入,Topology是由Stream Grouping连接起来的Spout和Bolt节点网络。
Tuple元组
结构
Tuple是Storm的主要数据结构,是Storm中使用的最基本单元、数据模型和元组。
Tuple就是一个值列表,Tuple中的值可以是任何类型的,动态类型的Tuple的fields可以不用声明。
默认情况下,Storm中的Tuple支持私有类型、字符串、字节数组等作为他的字段值。
Tuple的字段默认类型有:integer、float、double、long、short、string、byte、binary(byte[ ])。
数据结构如下图:可以理解成一个键值对类型的数据结构。