Spark和Flink都具有流和批处理能力,但是他们的做法是相反的。
Spark Streaming是把流转化成一个个小的批来处理,这种方案的一个问题是我们需要的延迟越低,额外开销占的比例就会越大,这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流,这种做法的一个特点是在流和批共享大部分代码的同时还能够保留批处理特有的一系列的优化
链接:https://www.jianshu.com/p/a8f022ab6b02
开源的大数据分析平台除了Flink外,还有Drill、Nifi、Impala、Shark 、Presto、Stinger等。
传统架构
Lambda 架构
Kappa 架构
实时模型和历史模型