storm
笔尖的痕
spark、hadoop,数据仓库,实时计算
展开
-
storm资料
storm简介【转】 http://www.51studyit.com/html/notes/20140329/44.html原创 2014-09-15 01:20:48 · 749 阅读 · 0 评论 -
Storm高级原语(二) — DRPC
Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型(CPU intensive)的计算任务。DRPC的storm topology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。 DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语stream、spout、bolt、 topology而成的一种模式(pa转载 2014-10-09 03:06:06 · 1008 阅读 · 0 评论 -
Storm高级原语(一) — Transactional topology
本文翻译自Apache storm主页上的Transactional-topologies 介绍一文,同时参考徐明明博客。 Transactional topology是一个0.9版本中被弃用的原语,取而代之的是trident框架。(关于trident请参考:《Storm高级原语(三) — Trident topology》 ) Storm通过保证每个tuple至少被处理一次来提供可靠转载 2014-10-09 07:46:22 · 681 阅读 · 0 评论 -
Storm DRPC 介绍(1)
1. DRPC介绍 1.Storm是一个分布式实时处理框架,它支持以DRPC方式调用.可以理解为Storm是一个集群,DRPC提供了集群中处理功能的访问接口. 其实即使不通过DRPC,而是通过在Topoloye中的spout中建立一个TCP/HTTP监听来接收数据,在最后一个Bolt中将数据发送到指定位置也是可以的。这是后话,后面再进行介绍。而DPRC则是Storm提供的一套开发组建,使用转载 2014-10-09 03:04:06 · 1034 阅读 · 0 评论 -
Storm高级原语(三) — Trident topology
本文翻译自Apache Storm主页上的Trident topology 介绍一文,同时参考derekjiang博客。 Trident是在storm基础上,一个以实时计算为目标的高度抽象。 它在提供处理大吞吐量数据能力(每秒百万次消息)的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批处理工具很了解的话,那么应该很容易理解Trident,转载 2014-10-14 15:37:11 · 1640 阅读 · 0 评论 -
Storm高级原语(四) — Trident API 综述
本文翻译自Storm wiki中的Trident API,部分地方加入了笔者自己的理解。 “Stream”是Trident中的核心数据模型,它被当做一系列的batch来处理。在Storm集群的节点之间,一个stream被划分成很多partition(分区),对流的操作(operation)是在每个partition上并行进行的。 注: ①“Stream”是Trident中的核心数转载 2014-10-14 15:52:54 · 694 阅读 · 0 评论 -
Storm高级原语(五) — State in Trident
本文翻译自Storm wiki中State in Trident一文,同时参考derekjiang博客。 Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态既可以保留在topology的内部,比如说内存和HDFS,也可以放到外部存储当中,比如说Memcached或者Cassandra。这些都是使用同一套Trident API。 Trident以一种容错的方式来管理状态以转载 2014-10-14 18:14:35 · 1116 阅读 · 0 评论 -
Lambda架构
sentric » Lambda Architecture, Part 1 Hadoop框架带来了批量数据处理,但是网络规模大数据的实时处理仍然是一个挑战。 有很多技术可以用来建立这样一个完整的数据处理系统 - 但要选择合适的工具并且编排使用它们却是复杂和艰巨的。 Nathan Marz将任何数据系统都可定义为: “query = function(all data)” L转载 2014-11-04 02:47:50 · 1425 阅读 · 0 评论 -
Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2 分布式环境整合
# 学习前言 本博文整合Flume+Kafka+Storm中的Eclipse工程代码下载地址http://download.csdn.net/detail/u012185296/7633405 # Flume的学习请参考_00016 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)这篇博文 # Kafka的学习请参考_00017转载 2014-09-23 23:28:19 · 1875 阅读 · 0 评论 -
Storm实战常见问题及解决方案
http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html 类型 详细 备注 该文档是群里几个朋友在storm实战中遇到的一些问题,及其对应解决办法。 相关描述 ² 其他相关文档请参考新浪博客http://blog.sina.com.cn/huangcho转载 2014-09-23 17:38:48 · 1381 阅读 · 0 评论 -
Storm-源码分析汇总
Storm Features Storm 简介 Storm Topology的并发度 Storm - Guaranteeing message processing Storm - Transactional-topologies Twitter Storm – DRPC Storm 多语言支持 Storm Starter Storm st转载 2014-09-23 17:33:32 · 4323 阅读 · 0 评论 -
Storm集群搭建
一、安装前准备 jdk-6u32-linux-x64.bin (jdk-1.6.x即可) zookeeper-3.4.5.tar.gz zeromq-2.1.7.tar.gz jzmq https://github.com/nathanmarz/jzmq storm-0.8.2.zip python 2.6 unzip 请尽量使用本文提供的转载 2013-12-17 11:01:12 · 758 阅读 · 0 评论 -
Storm-0.9.0.1安装部署 指导
可以带着下面问题来阅读本文章: 1.Storm只支持什么传输 2.通过什么配置,可以更改Zookeeper默认端口 3.Storm UI必须和Storm Nimbus部署在同一台机器上,UI无法正常工作为什么 2.Storm-0.9.0.1大概经过几个步骤 Twitter Storm更新0.9.0.1之后,安装部署变得容易得多了,比起Storm0.8.x的版本,Storm少了转载 2014-09-07 10:47:56 · 1207 阅读 · 0 评论 -
storm简介
什么是tuple? 命名的value序列, 可以理解成Key/value序列, 每个value可以是任何类型, 动态类型不需要事先声明. Tuple在传输中需要序列化和反序列化, storm集成了普通类型的序列化模块, 用户可以自定义特殊类型的序列化逻辑 A tuple is a named list of values, where each va转载 2014-09-07 21:55:04 · 861 阅读 · 0 评论 -
Storm on yarn安装步骤
参考: [1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea [2] http://blog.csdn.net/jiushuai/article/details/18729367 1. 已有的环境 Java代码 a. 安装有HDFS文件系统 b.转载 2014-09-10 02:47:58 · 972 阅读 · 0 评论 -
【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE 之前在弄这个的时候,跟转载 2014-08-26 00:40:30 · 768 阅读 · 0 评论 -
Storm及Hadoop比较 && Strom优点
一、 比较 Storm: 分布式实时计算,强调实时性,常用于实时性要求较高的地方 Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析 二、 优点 1. 简单编程 在大数据处理方面相信大家对hadoop已经耳熟能详,基于Google Map/Reduce来实现的Hadoop为开发者提供了map、reduce原语,使并行批处理程序变得非常地简单转载 2014-09-23 16:03:06 · 1116 阅读 · 0 评论 -
Linkedln技术高管Jay Kreps:Lambda架构剖析
Jay Kreps是Linkedln的一名在线数据架构技术高管,其负责Linkedln开源项目,包括Apache Kafka、Apache Samza、Voldemort以及Azkaban等项目。在日常工作中,Jay Kreps经常被问及有关Lambda架构的问题,为此他结合实际经验和个人体会,把使用Lambda架构的心得总结为以下几点,我们一起来看下: Lambda架构的组成 该架构转载 2014-11-04 02:45:32 · 1581 阅读 · 0 评论