目录
Storm数据流分组
词频统计的Topology的并发可以如下图所示:
WordCountSpout---->SplitBolt 过程:发送的是一行一行的数据,任何一个SplitBolt都可进行处理。
SplitBolt--->WordCountBolt 过程:发送的是一个一个的单词,同一个单词必须发给同一个WordCountBolt
WordCountBolt--->ReportBolt 过程:发送的是单词和频次,收到后打印输出即可
Stream消息流
Stream是Storm中最关键的抽象,是一个没有边界的Tuple序列,这些Tuple以分布式的方式并行地常见和处理。定义消息流主要是定义消息流中的Tuple。每个消息流在定义时都会分配一个ID,因为单向消息流很普遍,OutputFieldsDeclarer定义了一些方法可以定义一个流而不指定其ID。在这种情况下,该流有一个默认的ID。