storm
文章平均质量分 80
小桥
活泼开朗 ,乐于帮助他人
展开
-
CentOS 6.4单机环境下安装配置Storm
Storm是一个分布式的、高容错的实时计算系统,在实时性要求比较强的应用场景下,可以用它来处理海量数据。我们尝试着搭建Storm平台,来实现实时计算。下面,我们在CentOS 6.4上安装配置Storm系统。安装配置安装配置过程,按照如下步骤进行:1、安装配置sunjdk下载sunjdk,并安装Java运行环境:1wget htt转载 2014-03-25 20:53:28 · 978 阅读 · 0 评论 -
Storm0.9.0.1升级安装
1,下载0.9.0.1 http://storm.incubator.apache.org/downloads.html2,安装就jdk,python,zookeeper 在服务器 “192.168.1.1″ “192.168.1.1″”192.168.1.2″上3,解压,修改conf下的storm.yamlstorm.zookeeper.servers: –转载 2014-03-20 21:14:29 · 843 阅读 · 0 评论 -
Storm之trident序列化问题
在使用Storm的trident做流计算开发时,遇到一个诡异的问题:我继承IPartitionedTridentSpout或者IOpaquePartitionedTridentSpout接口做事务型实时计算的开发,类型T通常是用来每个批次序列化到ZK中的偏移量。我遇到的问题是:只要实时应用启动后不终止,每个批次发送的消息的偏移量都是接着上一个批次消息的偏移量继续向后移动的。但是只要应用终止后重转载 2014-04-09 22:15:54 · 879 阅读 · 0 评论 -
Storm事务型(transactional)spout介绍(二)
接下来再介绍一下IOpaquePartitionedTransactionalSpout。前面说到IPartitionedTransactionalSpout在极罕见的情况下会卡住。而IOpaquePartitionedTransactionalSpout为了解决这个问题,它不保证每次重发一个批次的消息所包含的tuple完全一致。也就是说某个tuple可能第一次在txid=2的批次中出现,后面有可转载 2014-04-09 22:11:53 · 1397 阅读 · 0 评论 -
Storm事务型(transactional)spout介绍(一)
针对目前主流的消息中间件都有分区的概念,Storm专门提供了backtype.storm.transactional.partitioned包。这里主要介绍一下IPartitionedTransactionalSpout和IOpaquePartitionedTransactionalSpout这两个接口。如果使用Storm 0.8之后版本的Trident新特性,对应的有storm.trid转载 2014-04-09 22:11:17 · 1763 阅读 · 0 评论 -
Storm之trident聚合操作介绍
Trident主要有5类操作:1、作用在本地的操作,不产生网络传输。2、对数据流的重分布,不改变流的内容,但是产生网络传输。3、聚合操作,有可能产生网络传输。4、作用在分组流(grouped streams)上的操作。5、Merge和join这里主要介绍一下3和4,希望对大家有所帮助,如有错误请指正!首先说几个名词:Partition:在Storm中并发的最小执转载 2014-04-09 22:08:34 · 1227 阅读 · 0 评论 -
Storm 0.9.0中trident的Spout接口变化
在Storm 0.9.0中trident的Spout接口稍有变动,以IPartitionedTridentSpout为例,在0.9.0之前是IPartitionedTridentSpout,之后变成IPartitionedTridentSpout< Partitions, Partition extends ISpoutPartition, T > T是序列化到ZK中用于中间状态存储的,通转载 2014-04-09 22:15:19 · 1015 阅读 · 0 评论 -
Storm配置项详解
Storm配置项详解什么是Storm?Storm是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理变换。Storm的配置文件一般存放在$STORM_HOME/conf下,通常名为storm.yaml,它符合yaml格式要求。配置项详解:以下是从storm的backtype.storm.Config类中搜集的转载 2014-03-25 10:15:25 · 701 阅读 · 0 评论 -
storm常见问题解答
最近有朋友给我邮件问一些storm的问题,集中解答在这里。一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入storm做计算?你需要实现一个Spout,Spout负责将数据emit到storm系统里,交给bolts计算。怎么实现spout可以参考官方的kestrel spout实现:https://github.com/nathanmarz/storm-kestrel转载 2014-03-25 23:28:25 · 872 阅读 · 0 评论 -
使用Thrift API监控Storm集群
Storm UI提供了基本的监控界面,可以查看当前时点集群内脚本的运行情况,其中比较重要的是消息吞吐量(Transferred)和处理延迟(Process latency)。不足的是,这套系统没有记录时序数据,因此想看一段时间内的趋势图,或是做脚本上下线的负载监控,Storm UI就无能为力了。不过,Storm Nimbus开放了一套Thrift API,可以使用他获取各类信息。下面就介绍一下转载 2014-03-25 21:45:18 · 2367 阅读 · 0 评论 -
Storm实战常见问题及解决方案
该文档为实实在在的原创文档,转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题,及其对应解决办法。 相关描述² 其他相关文档请参考新浪博客http://blo转载 2014-10-18 15:19:40 · 1165 阅读 · 0 评论