Storm
# Storm
学要无止尽
任职于达摩院自动驾驶实验室;负责自动驾驶云端计算的架构和研发;
展开
-
Storm配置项详解
什么是Storm?Storm是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理变换。Storm的配置文件一般存放在$STORM_HOME/conf下,通常名为storm.yaml,它符合yaml格式要求。配置项详解:以下是从storm的backtype.storm.Config类中搜集的所有storm支持的配置项(Ba转载 2013-04-08 11:51:37 · 808 阅读 · 0 评论 -
xor算法在storm可靠性中的应用
1、先看一下数学中的异或 异或xor是一个数学运算符。它应用于逻辑运算。异或符号为“^”。异或也叫半加运算,其运算法则相当于不带进位的二进制加法:二进制下用1表示真,0表示假,则异或的运算法则为:0异或0=0,1异或0=1,0异或1=1,1异或1=0(同为0,异为1),既然相同的对象XOR操作,结果是0,那么有这样一个公式,A xor B…xor B xor转载 2015-02-11 10:39:33 · 779 阅读 · 0 评论 -
Twitter Storm 实时数据处理框架分析总结
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛,如上篇文章介绍S4时所说的个性化搜索广告的会话特征分析。而Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文转载 2013-04-08 15:39:20 · 966 阅读 · 0 评论 -
Storm Topology的并发度 (task和executor工作模型)
Understanding the parallelism of a Storm topologyhttps://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology 概念一个Topology可以包含一个或多个worker(并行的跑在不同的machine上转载 2014-01-10 10:34:10 · 1279 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这个的时候,跟转载 2014-06-18 17:46:13 · 778 阅读 · 0 评论 -
Storm 单机环境的安装与配置
好久没写博客了,这一段时间一直被导师push着做毕业设计。由于目前的方向偏向于图像识别检索,毕设打算做一个基于分布式计算平台的图像检索系统,查阅相关资料发现Hadoop不适用于实时的计算环境,而Twitter Storm却能够满足自己的需求。我花了大概3~4天的时间,才将一个单机环境下的Storm平台部署好,期间经历了各种各样的“奇葩”的错误,此外,网上相关的Storm配置文章各种各样,叙述得多少转载 2013-12-04 11:09:26 · 4868 阅读 · 0 评论 -
storm入门1--storm的安装
Storm的依赖软件比较多,需要装Python、zookeeper、zeromq以及jzmq,然后才是storm的安装。首先说一下Storm的单机版安装过程。第一步,安装Python2.7.2# wget http://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz# tar zxvf Python-2.7.2.tg原创 2013-11-26 13:42:43 · 1286 阅读 · 0 评论 -
Storm:最火的流式处理框架
诞 生 在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出转载 2013-11-25 14:24:27 · 847 阅读 · 0 评论 -
Twitter Storm集群搭建小结
最近自己尝试搭建了一下Twitter Storm的集群,参考了很多网友的博客,特别是徐明明的;这里只对自己搭建时的过程和所遇到的问题做一个小总结,方便查阅。 Storm是Twitter开源的一个实时计算框架,它需要依赖Zookeeper,ZeroMQ;同时还需要你的系统环境中有Java和Python。所以整个搭建步骤如下:搭建Zookeeper集群。在控制节点机[ Nimb转载 2013-04-12 17:22:50 · 673 阅读 · 0 评论 -
Twitter Storm简介
网址: http://xumingming.sinaapp.com/109/twitter-storm简介/ 本文翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Rationale背景过去的十年是数据处理变革的十年, MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前要转载 2013-04-08 18:42:49 · 721 阅读 · 0 评论 -
Twitter Storm的一些关键概念
网址: http://xumingming.sinaapp.com/117/twitter-storm的一些关键概念/ 这篇文章翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Concepts, 主要介绍storm的一些关键概念。storm的一些关键概念如下:TopologiesStreams转载 2013-04-08 18:36:52 · 596 阅读 · 0 评论 -
Twitter Storm入门
网址: http://xumingming.sinaapp.com/138/twitter-storm入门/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial在这个教程里面我们将学习如何创建Topologies, 并且把topologies部署到storm的集群里面去。Java将是我们主要的示范语言, 个别例子会使转载 2013-04-08 18:28:25 · 675 阅读 · 0 评论 -
Twitter Storm: 创建一个新的storm项目
网址: http://xumingming.sinaapp.com/160/twitter-storm-创建一个新的storm项目/ 这篇文章翻译自: https://github.com/nathanmarz/storm/wiki/Creating-a-new-Storm-project这篇文章主要介绍如何新建一个storm项目, 主要步骤:把storm的jar包转载 2013-04-08 18:27:21 · 986 阅读 · 0 评论 -
Twitter Storm如何保证消息不丢失
网址: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个转载 2013-04-08 18:29:20 · 668 阅读 · 0 评论 -
Twitter Storm: 配置开发环境
本文翻译自:https://github.com/nathanmarz/storm/wiki/Setting-up-development-environment这篇文章介绍了如何配置一个storm的开发环境, 总的来看有下面几个步骤:下载storm的release版本, 解压,并且把bin/目录加到环境变量PATH里面去。为了让我们可以启动/停止远端storm集群上的to转载 2013-04-08 18:22:52 · 691 阅读 · 0 评论 -
Twitter Storm 概念
概念这个页面列出了storm的主要概念和查找更多信息的链接。讨论的概述有:1. 拓扑(Topologies)2. 流(Streams)3. 喷嘴(Spouts)4. 螺栓(Bolts)5. 流分组(Stream groupings)6. 可靠性(Reliability)7. 任务(Tasks)8. 工作者(Workers)转载 2013-04-08 16:11:58 · 838 阅读 · 0 评论 -
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一转载 2013-04-08 13:31:26 · 468 阅读 · 0 评论 -
[翻译][Trident] Storm Trident 教程
英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理转载 2015-05-20 09:21:53 · 500 阅读 · 0 评论