Storm
iteye_14294
这个作者很懒,什么都没留下…
展开
-
Strom的一些最重要特性
Storm作为Twitter开源的实时计算框架, 已经成为big data下一个热点. 下面是一些主要特性: [list] [*]简单的编程模型: 类似MapReduce, 不过MR用来降低并行批量处理的复杂性, 而Storm用来简化实时处理模型. [*]支持多种编程语言: 目前支持Clojure, Java, Ruby, Python [*]容灾高可用: Strom管理整个worker集...2012-01-31 21:10:48 · 131 阅读 · 0 评论 -
关于storm的complete latency
最近我们的storm在跑的过程中, 发现bolt的complete latency都非常低, 在1ms以下, 而spout却不断的增加, 达到了好几千ms, 最后导致整个spout挂掉(后来发现complete latency不断增加跟fail有关). 这是一个非常严重的问题, 于是在storm-user上google了一把, 发现这里([url=http://groups.google.com/...原创 2012-03-12 11:26:19 · 753 阅读 · 0 评论 -
Bolt接口各个方法的执行顺序
在storm-user中看到的一个关于Storm Bolt内部实现的执行顺序的[url=https://groups.google.com/forum/?fromgroups#!topic/storm-user/FuRHdHt71mk]提问[/url], 觉得对理解Bolt内部实现有帮助, 记录一下. [b]prepare[/b]方法在worker初始化task的时候调用. [b]ex...原创 2012-03-04 20:05:41 · 462 阅读 · 0 评论 -
storm ui上emit和transferred的区别
最开始对storm ui上展示出来的emit和transferred数量不是很明白, 于是在storm-user上google了一把, 发现有人也有跟我一样的[url=http://groups.google.com/group/storm-user/browse_thread/thread/a47b13e85161efe5]困惑[/url], nathan做了详细的回答: emitted栏...原创 2012-03-04 14:07:32 · 348 阅读 · 0 评论 -
storm中supervisor, task, worker, spout, bolt之间的关系
一个storm topology运行起来之后, 会在supervisor 机器上启动一些进程来运行spout和bolt实例. 如果一个topology里面一共有一个spout, 一个bolt。 其中spout的parallelism是2, bolt的parallelism是4, 那么我们可以把这个topology的总工作量看成是6, 那么一共有6个task,那么/tasks/{topolog...原创 2012-03-04 13:53:29 · 469 阅读 · 0 评论 -
最近碰到的一些storm问题总结(不断更新)
目前使用的是storm.0.6.0这个版本. 至于其他版本有没有这问题, 不做研究. ★ yaml跟我们一般用的属性配置文件有所不同, 它的要求更严格一些, 因此在往conf/storm.yaml中添加配置的时候必须注意. 比如必须注意开始位置和冒号后面的空格, 否则配置不会生效. 关于yaml相关的资料, 网上有很多资料可以参考 如何检查配置是否生效, 可以使用命令: stor...原创 2012-02-27 23:24:48 · 353 阅读 · 0 评论 -
storm的ack和fail
为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tuple处理成功, 会调用spout的ack方法, 如果失败, 会调用fail方法. 而在处理tuple的每一个bolt都会通过OutputCollector来告知storm, 当前bolt处理是否成功. 为了了解OutputCollector的ack/f...原创 2012-02-20 20:21:42 · 243 阅读 · 0 评论 -
storm的序列化问题及与spring的结合方式
最近打算在项目中用storm从一个database生成多个搜索引擎的实时索引, 于是看了一些相关的资料就开始上手了. 按照以前熟悉的套路, 使用spring来管理对象之间的依赖, 于是我开始将topology, spout, bolt看成一个个bean, 然后放在spring容器中来完成初始化, 但是在本地模式运行的时候, 出现序列化的问题(抛出java.io.NotSerializableExc...原创 2012-02-16 21:40:51 · 225 阅读 · 0 评论 -
Storm实现实时feed信息处理
这篇文章通过用一个如何处理feed数据的应用场景来说明为什么会出现Storm实时计算框架, 对我们自己的技术选型和系统架构设计非常有参考价值. 原文在[url=http://www.datasalt.com/2012/01/real-time-feed-processing-with-storm/]这里[/url] [url=https://github.com/nathanmarz/...2012-02-01 22:44:04 · 169 阅读 · 0 评论 -
storm资料汇总(更新中)
[list] [*][url=https://github.com/nathanmarz/storm/wiki]storm wiki[/url] //storm最权威, 最新资料 [*][url=https://github.com/nathanmarz/storm-starter]storm starter[/url] //storm的hello world [*][url=http://...原创 2012-03-16 06:20:56 · 160 阅读 · 0 评论