统计的问题
1. 解决统计单词在文章中出现的频率问题?
例如:Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for batch processing. Storm is simple, can be used with any programming language, and is a lot of fun to use!
文章中出现频率如下:
hadoop:1次 Storm:3次 realtime:2次 processing:2次 is:3次 等等
2. Topology定义
上面的示意图中有4个组件,分别为一个Spout和3个Bolts。
当数据源Spout按照每一行取得文章每个句子(可以是一个句子,包含多个单词)以后,发送给 Word Split Bolt进行单词的切分
(由于英文,按照空格分词), 根据Field Grouping 策略按照Word分组完成数据流定向传输,然后由Word Count Bolt进行统计结果,
最终由Word Report Bolt记录结果(由于需要一个Bolt完成汇总,避免汇总数据分离到不同Bolt文件中,务必使用Global Grouping)。