Storm 实时计算
全面storm架构、原理、实战的专栏
Heaven-Wang
坐标:浙江杭州 联系我:490095337@qq.com
展开
-
Trident State 详解
一、什么是Trident State直译过来就是trident状态,这里的状态主要涉及到Trident如何实现一致性语义规则,Trident的计算结果将被如何提交,如何保存,如何更新等等。我们知道Trident的计算都是以batch为单位的,但是batch在中的tuple在处理过程中有可能会失败,失败之后bach又有可能会被重播,这就涉及到很多事务一致性问题。Trident State就是管理这些问原创 2015-10-22 14:00:40 · 4222 阅读 · 0 评论 -
Storm专题一、Storm DRPC 分布式计算
本文zi Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语spout,bolt, topology而成的一种模式(pattern)。本来应转载 2014-08-06 10:31:43 · 7360 阅读 · 2 评论 -
Storm Trident API 实践
一、概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架。 具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data)、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。1.2 Tride原创 2014-11-14 14:53:54 · 6031 阅读 · 2 评论 -
Storm专题二:Storm Trident API 使用详解
一、概述 Storm Trident中的核心数据模型就是“Stream”,也就是说,Storm Trident处理的是Stream,但是实际上Stream是被成批处理的,Stream被切分成一个个的Batch分布到集群中,所有应用在Stream上的函数最终会应用到每个节点的Batch中,实现并行计算,具体如下图所示: 在Trident中有五种操作类型:A原创 2014-08-22 11:02:00 · 7179 阅读 · 0 评论 -
Storm Trident 详解
英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理转载 2014-08-22 15:48:01 · 4736 阅读 · 0 评论 -
Storm中的可靠性
我们知道Storm有一个很重要的特性,那就是Storm API能够保证它的一个Tuple能够被完全处理,这一点尤为重要,下面就给大家介绍一下storm中的可靠性。1.Spout的可靠性保证 在Storm中,消息处理可靠性从Spout开始。为了保证数据能正确的被处理, 对于spout产生的每一个tuple,storm都能进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tup原创 2014-12-02 19:29:32 · 8521 阅读 · 1 评论 -
Storm集群中运行的各种组件及其并行
一、Storm中运行的组件 我们知道,Storm的强大之处就是可以很容易地在集群中横向拓展它的计算能力,它会把整个运算过程分割成多个独立的tasks在集群中进行并行计算。在Storm中,一个task就是运行在集群中的一个Spout或Bolt实例。 为了方便理解Storm如何并行处理我们分给它的任务,这里我先介绍一下在集群中涉及到Topology的四种组件:原创 2014-11-13 16:33:44 · 4389 阅读 · 0 评论 -
storm集群部署和配置过程详解
先整体介绍一下搭建storm集群的步骤:设置zookeeper集群安装依赖到所有nimbus和worker节点下载并解压storm发布版本到所有nimbus和worker节点配置storm.yaml启动相关后台进程1 首先配置zookeeper集群 我们知道storm通过zookeeper来协调整个集群。zookeeper不是用来做消息传递,因此storm不会给zo原创 2014-12-05 16:36:10 · 9369 阅读 · 0 评论 -
Storm详解二、写第一个Storm应用
在全面介绍Storm之前,我们先通过一个简单的Demo让大家整体感受一下什么是Storm。Storm运行模式:本地模式(Local Mode): 即Topology(相当于一个任务,后续会详细讲解) 运行在本地机器的单一JVM上,这个模式主要用来开发、调试。远程模式(Remote Mode):在这个模式,我们把我们的Topology提交到集群,在这个模式中,Storm的所有组件都原创 2014-08-04 15:10:12 · 14055 阅读 · 3 评论 -
Storm详解一、Storm 概述
一、Storm概述 Storm是一个分布式的、可靠的、零失误的处理流式数据的系统。它的工作就是委派各种组件分别独立的处理一些简单任务。在Storm集群中处理输入流的是Spout组件,而Spout又把读取的数据传递给叫Bolt的组件。Bolt组件会对收到的数据元组进行处理,也有可能传递给下一个Bolt。我们可以把Storm集群想象成一个由bolt组件组成的链条集合,数据在这些链条上传输原创 2014-08-04 10:45:25 · 7944 阅读 · 0 评论