storm学习
liang_wen_bo
这个作者很懒,什么都没留下…
展开
-
1.Storm基本概念
在运行一个Storm任务之前,需要了解一些概念:Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(topology),这两转载 2013-04-09 19:55:04 · 652 阅读 · 0 评论 -
2.Storm入门教程 第三章 Storm安装部署步骤
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus转载 2013-04-09 20:44:23 · 767 阅读 · 0 评论 -
0.storm介绍
1.1 实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。随着互联网的更进一步发展,从P转载 2013-04-09 20:50:37 · 564 阅读 · 0 评论 -
3.消息的可靠处理
4.1 简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。4.2 理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式的“单词统计”的例子:storm任务从数据源(Kes转载 2013-04-09 20:52:41 · 621 阅读 · 0 评论 -
4.一致性事务
Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。Transactional Topology目前已经不再维护,由Trident来实现事务性topology,但是原理相同。5转载 2013-04-09 20:56:28 · 657 阅读 · 0 评论 -
巧用MapReduce+HDFS,海量数据去重的五大策略
摘要:随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都转载 2013-04-24 09:29:44 · 1278 阅读 · 0 评论