Storm实时计算
大林-Java
专注于互联网技术IT,Java架构,数据库及数据仓库,缓存,消息,分布式,大数据
展开
-
海量数据日志实时分析步骤
1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1) 数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时转载 2014-03-03 10:39:25 · 4552 阅读 · 0 评论 -
Twitter Storm: Transactional Topolgoy简介
作者: xumingming文章原始出处: http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Transactional-topologies概述Storm通过保转载 2014-03-09 14:28:27 · 742 阅读 · 0 评论 -
Storm 原理机制杂记
Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算原创 2014-03-09 08:45:09 · 6398 阅读 · 1 评论 -
Twitter Storm源代码分析之Nimbus/Supervisor本地目录结构
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/483/twitter-storm-code-analysis-local-dir/ 我们知道,storm集群里面工作机器分为两种一种是nimbus, 一种是supervisor, 他们通过zookeeper来进行交转载 2014-03-30 12:03:44 · 597 阅读 · 0 评论 -
Twitter Storm源代码分析之Topology的执行过程
Twitter Storm源代码分析之Topology的执行过程发表于 2012 年 01 月 07 日 由 xumingming作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/647/twitter-storm-code-analysis-topol转载 2014-03-30 11:55:51 · 830 阅读 · 0 评论 -
Twitter Storm源代码分析之ZooKeeper中的目录结构
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/ 我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper转载 2014-03-30 12:05:48 · 605 阅读 · 0 评论 -
Twitter Storm源代码分析之acker工作流程
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/410/twitter-storm-code-analysis-acker-merchanism/ 概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指:转载 2014-03-30 12:07:43 · 759 阅读 · 0 评论 -
Storm Trident 示例
Storm Trident的核心数据模型是一批一批被处理的“流”,“流”在集群的分区在集群的节点上,对“流”的操作也是并行的在每个分区上进行。Trident有五种对“流”的操作:1. 不需要网络传输的本地批次运算2. 需要网络传输的“重分布”操作,不改变数据的内容3. 聚合操作,网络传输是该操作的一部分4. “流”分组(grouby)操作转载 2014-03-03 15:01:41 · 1482 阅读 · 0 评论 -
Storm应用系列之——Topology部署
本文系原创系列,转载请注明。原帖地址:http://blog.csdn.net/xeseo前言在前面Storm系列之——基本概念一文中,提到过Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍:http://blog.csdn转载 2014-03-26 10:09:08 · 1316 阅读 · 0 评论 -
Trident State:事务相关设计
Storm可靠性的设计与它的Acker有很大关系,先让我用比较拙劣的语句简单描述下。Storm的tuple,被OutputCollector emit的时候——这个称为archoring(生成新的tuples),需要指定和它相关的之前的tuple,并且要指定executor完之后ack之类的api,这样就能建立一颗可追踪的tuple树。如:[java] view转载 2014-03-09 10:33:32 · 916 阅读 · 0 评论 -
Real-Time Trending Topics
Implementing Real-Time Trending Topics With a Distributed Rolling Count Algorithm in StormJAN 18TH, 2013A common pattern in real-time data workflows is performing rolling counts of incoming转载 2014-03-06 11:53:13 · 1900 阅读 · 0 评论 -
Storm-批处理
Storm常见模式——批处理Storm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。例如,批量查询或者更新数据库,如果每一条tuple生成一条sql执行一次数据库操作,数据量大的时候,效率会比批量处理的低很多,影响系统吞吐量。当然,如果要使用Storm的转载 2014-03-03 11:38:46 · 1089 阅读 · 0 评论 -
Storm tuple信息不丢失原因
转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout转载 2014-03-03 14:54:42 · 1673 阅读 · 0 评论 -
Storm在批处理和事务方面的机制分析
1、storm事务性topology的提出对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology转载 2014-03-03 15:19:17 · 1535 阅读 · 0 评论 -
大数据实时处理:百分点实时计算架构和算法
当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。以百 分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求。如何从这些数据中快速挖掘用户兴趣偏 好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题。本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和转载 2014-03-03 11:15:15 · 2400 阅读 · 0 评论 -
Storm Trident 教程
英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理工具很了解的话,转载 2014-03-03 14:50:09 · 675 阅读 · 0 评论 -
Twitter Storm源代码分析之TimeCacheMap-过期清除
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/395/twitter-storm-code-analysis-timecahcemap/TimeCacheMap是Twitter Storm里面一个类, Storm使用它来保存那些最近活跃的转载 2014-03-05 23:08:03 · 787 阅读 · 0 评论 -
Storm架构组件componet
Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算,因为内转载 2014-03-05 14:09:21 · 1331 阅读 · 0 评论 -
Storm常见模式—SingleJoinBolt&TimeCacheMap
Topology1.定义两个spout, 分别是genderSpout, ageSpout Fields, ("id", "gender"), ("id", "age"), 最终join的结果应该是("id", "gender", "age")2. 在设置SingleJoinBolt需要将outFields作为参数, 即告诉bolt, join完的结果应该包含哪些fields转载 2014-03-06 14:27:24 · 1845 阅读 · 0 评论 -
数据架构及storm机制小结
数据采集架构:一 storm是什么Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等二 storm vs hadoop 对比架构图三 Storm构件机制客户端原创 2014-05-15 10:27:42 · 1159 阅读 · 0 评论