流式计算产品对比(Storm、Trident、Spark Streaming、Flink）

最新推荐文章于 2024-01-08 01:25:57 发布

Marvin_Pan

最新推荐文章于 2024-01-08 01:25:57 发布

阅读量1.3k

点赞数

分类专栏： Java 文章标签： spark storm flink

Java 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

产品	模型	API	保证次数	容错机制	状态管理	延时	吞吐量	成熟度
Strom	Native	组合式	At-least-once	Record ACKs	无	Very Low	Low	High
Trident	mirco-batching	组合式	Exectly-once	Record ACKs	基于操作的状态管理	Low	Low	High
Spark streaming	mirco-batching	声明式	Exectly-once	RDD Checkpoint	基于DDStream的状态管理	Low	Low	High
Flink	Native	组合式	Exectly-once	Checkpoint	基于操作的状态管理	Low	High	Low

1. 模型 Streaming Model

Naitve：数据进入立即处理；
Micro-Batch：数据流入后，先划分成Micro-Batch，再处理；

2. API 形式

组合式：操作更加基础的API操作，一步步精细控制，各组建组合定义成拓扑；
声明式：提供封装后的高阶函数。封装后可提供初步的优化；可提供窗口管理、状态管理等高级操作；

3. 保证机制

At-least-once，至少一次，出错情况下需要执行多次；
Exectly-once，一次执行，保证OK；

4. 容错机制

Record ACKs，每Tuple处理后经过ACK确认；
RDD Checkpoint，基于RDD做Checkpoint。只需要重新计算特定RDD；
Checkpoint：Flink的checkpoint，是一种快照（待补充详细介绍）

5. 状态管理

基于操作的状态管理：每次操作有一个状态；
基于数据的状态管理：每个数据有相应的处理状态；

6. 延时&吞吐量

怎么样制定测试方案？

7. 成熟度

产品成熟度，基于Flink已经在2016.3分布1.0版本，怎么界定成熟度？

8. 后记

Twitter后期开发的Heron，能否加入比对阵营。
有个不错的翻译文档：http://developer.51cto.com/art/201603/507444.htm

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
流式计算产品对比(Storm、Trident、Spark Streaming、Flink）

产品模型API保证次数容错机制状态管理延时吞吐量成熟度StromNative组合式At-least-onceRecord ACKs无Very LowLowHighTridentmirco-batching组合式
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。