流处理框架分类
开源的流处理框架有很多种,storm、spark streaming、flink等,那么怎么对这些框架进行分类呢?
从框架设计上来说,容错机制对整个框架的体系结构也有深刻的影响,包括所提供的编程模型。在现有框架中插入不同的容错机制并不容易。因此我们以容错机制对现有流处理框架进行分类,可得到以下几类:
对比角度分析
做好分类之后,我们将对这几类流处理框架进行对比,我们将从以下角度分析框架的优劣:
- 1、准确性保证:有状态操作符中的状态在故障发生后应该被正确地恢复
- 2、低延迟:越低越好。许多应用程序需要次秒级的延迟
- 3、高吞吐量:随着数据速率的增长,保证大量数据通过管道是至关重要的
- 4、强大的计算模型:框架应该提供一个不限制用户并允许广泛应用的编程模型
- 5、容错机制的低开销