Storm 从入门到精通 第十四讲 Storm Word Count 示例讲解

统计的问题

1. 解决统计单词在文章中出现的频率问题? 
例如:Apache Storm is a free and open source distributed realtime computation system.  Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for batch processing. Storm is simple, can be used with any programming language, and is a lot of fun to use!

文章中出现频率如下:
hadoop:1次 Storm:3次  realtime:2次  processing:2次  is:3次 等等




2. Topology定义

上面的示意图中有4个组件,分别为一个Spout和3个Bolts。
当数据源Spout按照每一行取得文章每个句子(可以是一个句子,包含多个单词)以后,发送给 Word Split Bolt进行单词的切分
(由于英文,按照空格分词), 根据Field Grouping 策略按照Word分组完成数据流定向传输,然后由Word Count Bolt进行统计结果,
最终由Word Report Bolt记录结果(由于需要一个Bolt完成汇总,避免汇总数据分离到不同Bolt文件中,务必使用Global Grouping)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值