实践:构建一个Storm分析解决方案
Strom使你能为任何可想象的需求创建一个实时分析服务。这里有一个非常好的使用Twitter数据的例子,源代码放在了GitHub上。
原文链接:http://www.javaworld.com/article/2860845/big-data/hands-on-build-a-storm-analytics-solution.html
作者 Phil Rhodes
InfoWorld | 2014-12-18 13:30
两周前, InfoWorld 测试了两个最流行的实时处理框架, Apache Storm 和 Apache Spark。现在我们将进一步的深入看下Storm,并以处理Twitter消息和在Twitter信息流上进行工作分析为例,过一下基本的Storm开发.
在这里,我们将从个人Twitter信息中选取重要的关键字,计算与给定的一个关键字被讨论的活跃度相关的滚动标准.另外,我们将进行一点轻量级的情绪分析,来判定在一个给定文章中的讨论的大意。我们也将看到从Storm选取重要的“即时时刻”事件,并将这些事件作为消息提醒发送出去,Storm和XMPP配合得是多么好。
关于Storm
Storm是一个开源的分布式流处理平台, 设计使建立大规模可扩展的基于持续数据流的实时计算处理系统更加容易。
Storm 与Hadoop 比较
Storm 和 Hadoop有何不同?简单的答案是Storm分析实时数据而Hadoop分析离线数据.
可以读一下这篇用Storm来进行大规模资料处理的介绍,了解为什么这两个框架互相补充完整更胜过他们互相竞争.
人们有时拿Storm像Hadoop一样进行实时处理,但重要的是记得Storm 对MapReduce编程模型没有特别的依赖.如果你一定需要的话,你可以用一个MapReduce模型来编你的Storm方案但Storm本身不需要它。事实上,Storm对于在Hadoop之前的分布式计算系统,如MPI,具有轻微的相似。换句话说你在设计你的应用时能够更灵活。
这个实践特性是InfoWorld内部库的一部分.登录或创建一个账户来使用Twitter和GitHub构建你自己的Storm分析解决方案.
这篇文章, "实践:构建一个Storm分析方案"原文发布于InfoWorld.
Phil Rhodes — 专栏作家
Phil Rhodes是开源软件集成的资深顾问,并是Fogbeam实验室的创立者和主持人.