- 博客(23)
- 资源 (31)
- 收藏
- 关注
转载 Twitter Storm源代码分析之acker工作流程
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/410/twitter-storm-code-analysis-acker-merchanism/ 概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指:
2014-03-30 12:07:43 753
转载 Twitter Storm源代码分析之ZooKeeper中的目录结构
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/ 我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper
2014-03-30 12:05:48 596
转载 Twitter Storm源代码分析之Nimbus/Supervisor本地目录结构
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/483/twitter-storm-code-analysis-local-dir/ 我们知道,storm集群里面工作机器分为两种一种是nimbus, 一种是supervisor, 他们通过zookeeper来进行交
2014-03-30 12:03:44 585
转载 Twitter Storm源代码分析之Topology的执行过程
Twitter Storm源代码分析之Topology的执行过程发表于 2012 年 01 月 07 日 由 xumingming作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/647/twitter-storm-code-analysis-topol
2014-03-30 11:55:51 806
转载 JVM垃圾回收
理解JAVA垃圾回收的好处是什么?满足求知欲是一方面,编写更好的JAVA应用是另外一方面。作为一家之言,我坚信理解了垃圾回收可以做更好的JAVA程序员。如果一个人对垃圾回收过程感兴趣,那表明他在应用程序开发领域有相当程度的经验。如果一个人在思考如何选择正确的垃圾回收算法,那意味着他对应用程序的特性完全了解。当然,不能一概而论。不过,相信很少人会不认为理解垃圾回收是做一个好的JAVA开发的前提。
2014-03-27 17:09:13 627
转载 Storm应用系列之——Topology部署
本文系原创系列,转载请注明。原帖地址:http://blog.csdn.net/xeseo前言在前面Storm系列之——基本概念一文中,提到过Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍:http://blog.csdn
2014-03-26 10:09:08 1304
转载 海量数据去重策略
摘要:随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都
2014-03-13 14:46:28 6321
转载 Kafka Producer端自定义消息
这篇文章主要讲kafka producer端的编程,通过一个应用案例来描述kafka在实际应用中的作用。如果你还没有搭建起kafka的开发环境,可以先参考:首先描述一下应用的情况:一个站内的搜索引擎,运营人员想知道某一时段,各类用户对商品的不同需求。通过对这些数据的分析,从而获得更多有价值的市场分析报表。这样的情况,就需要我们对每次的搜索进行记录,当然,不太可能使用数据库区记录这些信息(数
2014-03-12 22:45:36 1663
转载 Twitter Storm: Transactional Topolgoy简介
作者: xumingming文章原始出处: http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Transactional-topologies概述Storm通过保
2014-03-09 14:28:27 736
转载 Trident State:事务相关设计
Storm可靠性的设计与它的Acker有很大关系,先让我用比较拙劣的语句简单描述下。Storm的tuple,被OutputCollector emit的时候——这个称为archoring(生成新的tuples),需要指定和它相关的之前的tuple,并且要指定executor完之后ack之类的api,这样就能建立一颗可追踪的tuple树。如:[java] view
2014-03-09 10:33:32 910
原创 Storm 原理机制杂记
Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算
2014-03-09 08:45:09 6333 1
转载 Storm常见模式—SingleJoinBolt&TimeCacheMap
Topology1.定义两个spout, 分别是genderSpout, ageSpout Fields, ("id", "gender"), ("id", "age"), 最终join的结果应该是("id", "gender", "age")2. 在设置SingleJoinBolt需要将outFields作为参数, 即告诉bolt, join完的结果应该包含哪些fields
2014-03-06 14:27:24 1838
转载 Real-Time Trending Topics
Implementing Real-Time Trending Topics With a Distributed Rolling Count Algorithm in StormJAN 18TH, 2013A common pattern in real-time data workflows is performing rolling counts of incoming
2014-03-06 11:53:13 1793
转载 Twitter Storm源代码分析之TimeCacheMap-过期清除
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/395/twitter-storm-code-analysis-timecahcemap/TimeCacheMap是Twitter Storm里面一个类, Storm使用它来保存那些最近活跃的
2014-03-05 23:08:03 778
转载 Storm架构组件componet
Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算,因为内
2014-03-05 14:09:21 1321
转载 Spark Streaming
Spark Streaming:大规模流式数据处理的新贵转载▼Spark Streaming:大规模流式数据处理的新贵发表于2014-01-28 14:02| 1702次阅读| 来源《程序员》| 0 条评论| 作者夏俊鸾,邵赛赛《程序员》杂志2014年2月刊大数据流式计算Spark英特尔摘要:Spa
2014-03-05 11:45:07 1447
转载 Storm在批处理和事务方面的机制分析
1、storm事务性topology的提出对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology
2014-03-03 15:19:17 1527
转载 Storm Trident 示例
Storm Trident的核心数据模型是一批一批被处理的“流”,“流”在集群的分区在集群的节点上,对“流”的操作也是并行的在每个分区上进行。Trident有五种对“流”的操作:1. 不需要网络传输的本地批次运算2. 需要网络传输的“重分布”操作,不改变数据的内容3. 聚合操作,网络传输是该操作的一部分4. “流”分组(grouby)操作
2014-03-03 15:01:41 1463
转载 Storm tuple信息不丢失原因
转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout
2014-03-03 14:54:42 1664
转载 Storm Trident 教程
英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理工具很了解的话,
2014-03-03 14:50:09 663
转载 Storm-批处理
Storm常见模式——批处理Storm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。例如,批量查询或者更新数据库,如果每一条tuple生成一条sql执行一次数据库操作,数据量大的时候,效率会比批量处理的低很多,影响系统吞吐量。当然,如果要使用Storm的
2014-03-03 11:38:46 1085
转载 大数据实时处理:百分点实时计算架构和算法
当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。以百 分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求。如何从这些数据中快速挖掘用户兴趣偏 好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题。本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和
2014-03-03 11:15:15 2374
转载 海量数据日志实时分析步骤
1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1) 数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时
2014-03-03 10:39:25 4533
TheDefinitiveGuideToTerracottaCluster
2014-06-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人