最火爆的开源流式系统Storm vs 新星Samza

41 篇文章 0 订阅
27 篇文章 0 订阅

转载自:http://blog.csdn.net/hljlzc2007/article/details/16926715


分布计算系统框架,按照数据集的特点来说,主要分为data-flow和streaming两种。data-flow主要是以数据块为数据源来处理数据,代表有:MR、Spark等,我称作它们为大数据,而streaming主要是处理单位内得到的数据,这种方式,更注重于实时性,主要包括Strom、JStorm和Samza等,我称作它们为快数据。

在这篇文章中,我主要谈论streaming相关的框架。

第一个是Storm,一个实时计算系统,它假定数据源是动态的,可以向流水一样处理数据。

它的特点是:低延迟、高性能、分布式、可扩展和容错性。

架构如下图所示。


Storm的具体概念可以参照:http://blog.csdn.net/hljlzc2007/article/details/12976211,这里不做具体介绍。

Storm目前算是最最稳定的开源流式处理框架,但是个人认为它有两个问题。

1. Storm虽然支持多个语言编写spout和bolt端的代码,但是它的主要技术实现是clojure,这给玩大数据、开源的朋友带来了极大的不变,因为大家会的语言不是以java和C++等大众语言为主,这样的话,变得不可控了,难以深入了解、修改其细节。

2. Storm可以支持在Yarn(Hadoop 2.0)上,可以和其他开源框架共享Hadoop集群的资源,但是性能不佳,这个有待Storm改善

当然无论如何,Storm依然是目前开源流式处理框架的王者。

第二个我想说的是JStorm,这个是阿里做的,算是Storm的另一个实现,它用的语言是Java.

特点:

1. 客户端的API与Storm基本上是一致的,如果从Storm迁移过来,不需要修改bolt和spout的代码

2. Jstrom比Strom稳定,速度更快

3. 提供了一些新的特性

大家有兴趣可以去玩玩,项目地址https://github.com/alibaba/jstorm 

第三个是Samza

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

这是Linkin开发的一个小而美的项目,如何美呢?

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

之前我做过的一个项目,是Kafka + Storm + ElasticSearch,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护,还是那句话,小而美的东西,更受欢迎一些。

架构:

Samza主要包含三层,

1. 流处理层 --> Kafka

2. 执行层     --> YARN

3. 处理层    --> Samza API

Samza的流处理层和执行层都是可插拔式的,开发人员可以使用其他框架来替代,不局限于上述两种技术。

Samza提供了一个YARN ApplicationMaster,和YARN job,运行在集群之外,下图中不同颜色代表不同的主机。

Samza客户端告诉YARN的Resouce Manager,它想启动一个Samza job, YARN RM 告诉YARN Node manager,分配空间给YARN ApplicationMaster,NM指定完空间后,YARN container会运行Samza Task Runner。


Samza状态管理

流式处理数据对状态的管理是很难的,由于数据是流动的,本身没有状态,这样就需要靠历史数据来记录应用的场合,Samza提供了一个内部的key-value数据库,它是基于LevelDB,运行的JVM之外的,使用它来存储历史数据。这样的做的好处是:

1. 减少JVM的开销

2. 使用内部存储,极大提高的吞吐率

3. 减少并发操作

Samza处理流程.

下图是Samza官方给的一例子,根据Member ID分组,计算页面访问次数。入口消息分别来自Machine1、2,出口是Machine3,我们可以这样理解,消息分散在不同的消息系统中(Kafka),Samza从不同的Kafka中读取topic,在将topic进行处理后,发送到Machine3,这里不做过多分解,具体可以参照官方文档。



项目地址:https://github.com/apache/incubator-samza

官方文件:http://samza.incubator.apache.org/

以上给了我们无限遐想,Storm是否会保持领先地位,Samza能否取而代之呢,无论如何,作为开发者来说,几千行代码,我都迫不及待去要读一下了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
学习汉语编程必须明白几点: 1-中文和英文的地位是平等的,在计算机中也一样,不要褒英贬汉; 2-计算机的机器码是0和1,他既可以和英文对应也可以和中文对应; 3-英文编程之所以占主导地位,是因为世界体系格局现在及今后几十年仍将由西方主导,其语言和文化等 已渗透全球方方面面; 4-伴随着中国经济的发展,国际地位的提升,汉语编程也会像孔子学院一样全球开花结果,但道路是曲折 漫长的,需要我们共同努力。 如果你怀疑汉语编程真假,那么就冷静下来理性分析一下,怀疑可以但不要听信谗言。如果你决定学习 汉语编程,那么就不要再怀疑它,否则是学不好的。 汉语编程中编辑器、编译器、库结构三个软件是在windows平台上运行的软件,所以会被人们误认为是 汉化的,因为现在大多数人都用windows系统,所以要想推广肯定要在windows平台上,要兼容windows,而 且有一点,大家不要一看到汉编里英文就说汉编是假的,想想中华文化里有多少外来文化,要包容,然后消 化,再吸收,这才是正道,阿拉伯数字、汉语拼音字母这些就不是外来的,对我们有利的我们当然要加以利 用,汉编也一样,能用则用,为何不用,这也是中华文化包容性在汉编中的又一体现。 汉编现在只开放这种基于windows上的工具软件,还有其它深层或底层的由于商业原因现在还没对外开 放,如果这些都学不会就更没机会接触了,给你也不会用。 知识的原理是相同的,但千万别拿英文和汉语对照,语言环境变了,思维也要改变,当初学英语时老师 会强调我们要用英语思维,现在学汉编请光荣地找回你们的汉语思维,回归正统,尤其是英编高手。 针对一些英编高手说英编很好很强大,为什么还要学汉编,我们来举个例子:中国为什么要国防建设国 产化,难道买俄罗斯的武器不好吗?印度也是大国,为什么向俄罗斯买军火时,动不动就被宰,因为他自己 造不出来,这是经济方面;再看一下马岛战争,为什么阿根廷先期处于优势而结果却输了,因为法国不卖导 弹给他了,这是战争方面。现在英编高手可以不用学汉编,因为在汉编高手起来之前还没有人能撼动其地位, 当汉编高手起来之后他们自己也该回家养老了,历史的更替使其自动退下舞台,将来汉编产业化后,所谓的 编程精英也将消失,编程也就是一个普通的工种,这是一种必然的趋势。 汉语热已经在全球刮起了旋风,相信汉编也会在计算机世界里受到追捧。 现在还是个过渡阶段,希望将来龙芯出中文CPU,然后与汉编联姻,就是汉语和英语在计算机世界中二 分天下的时候了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值