Spark streaming&storm流计算的相关对比

转载 2015年07月09日 15:13:37

转自:http://blog.csdn.net/yangbutao/article/details/44538637
spark streaming和Storm作为当今流行的实时流计算框架,已经在实时计算方案应用的非常广泛了,其中spark streaming是基于spark的一个扩展,比storm的出现要晚一些。本章节从以下几个角度对两者进行了阐述,可以作为选型方面的一个参考。

A、 数据处理方式

Spark streaming是构建在spark上的实时流计算框架,利用时间批量窗口生成spark的计算输入源RDD,后对该RDD生成Job,进行排队调度到spark计算框架中执行,底层是基于spark资源调度和任务计算框架的;Spark streaming是基于数据的批处理方式,针对数据形成任务进行计算,是移动计算而不移动数据,而Storm恰恰相反,storm在处理架构上是数据流入到计算节点,移动的是数据而不是计算,对于时间窗口的批量数据处理,需要用户自己来实现,这个在之前的storm系列的相关章节中有介绍。

B、 生态体系

Spark streaming是基于spark的,可以和spark其他的组件结合,实现交互式的查询adhoc,机器学习MLib等。Storm相对来讲,只是作为一个流式计算框架,缺乏现有的Hadoop生态体系的融合。

C、 延迟以及吞吐量

Spark streaming基于对批量数据的处理,依赖spark的调度和计算框架,在延迟方面比storm要高,一般最小的延迟在2s左右,而storm可以达到100ms以内。正因为spark streaming是批处理的方式处理数据,整体的吞吐量比较高。

D、 容错性

Spark streaming通过lineage以及在内存维护两份数据备份进行容错,通过lineage记录之前对RDD的操作,若某节点在运行时候出现故障,则可以通过备份数据在其他节点重新计算得到。

Storm通过ack组件进行数据流的跟踪,开销比sparking streaming要大。

E、 事务性

Spark streaming保证数据只被处理一次,并且是在批处理的层次级别。

Storm通过跟踪机制能保证每个记录至少被处理一次,如果需要保证状态只更新一次的话,需要由用户自己来实现。

所以对于statefull的计算,对事务性比较高的话,spark streaming要更好一些。

相关文章推荐

Spark streaming&storm流计算的相关对比

spark streaming和Storm作为当今流行的实时流计算框架,已经在实时计算方案应用的非常广泛了,其中spark streaming是基于spark的一个扩展,比storm的出现要晚一些。本...

流式计算框架:Storm VS Spark Streaming

1.      概述          略 2. 技术实现 2.1 原语定义 Ø  Storm Tuple: 处理数据流中的最小单位;==> Record; Topology: 数据流向的...
  • iYoungJ
  • iYoungJ
  • 2015年01月23日 17:49
  • 607

实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html 分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对...
  • textboy
  • textboy
  • 2016年09月23日 15:42
  • 4214

Storm,Trident,Spark Streaming,Samza和Flink主流流处理框架比较

文 | Petr Zapletal ,译者 | 侠天   分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或...

Spark streaming & storm流式计算框架对比

原文链接:http://blog.csdn.net/yangbutao/article/details/44538637,致谢 Spark streaming和Storm作为当今流行的实时流式计算...

[翻译] Storm和Spark Streaming的横向比较

Storm和Spark Streaming是分布式流处理的开源框架。但是,它们之间也有一些重要的差异,在下文中可以看到。...

Storm与Spark streaming的比较

一项调查发现,九成企业的数据量在迅速上涨,其中16%企业的数据量每年增长0.5倍甚至更多。调研机构IDC在2011年6月的报告显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍。1....

Spark Streaming 流计算优化记录(1)-背景介绍

关于Spark Streaming优化的各种叽里呱啦记录, 这一次是从跑不动, 一直优化到能每秒解决6万条输入消息以及3G数据的Inner Join...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Spark streaming&storm流计算的相关对比
举报原因:
原因补充:

(最多只允许输入30个字)