研究分布式技术的工程师们总是希望彻底发掘出分布式技术的极限。
技术发展早期,主要的研究方向是速度更快、性价比更高的处理数据手段,这个方向的需求最终被 Hadoop 所解决,几乎每个人都开始使用 Hadoop 和它的生态系统来实现原有的 ETL 流程。
在这之后出现的新的数据处理需求就是处理流式数据(data in a streaming manner),这个方向的研究产生了 Apache Spark 和 Flink 这样的技术。它们支持的快速处理引擎(fast processing engines)、快速缩放能力(the ability to scale in no time)以及机器学习库和图处理库等特性正在将这些技术推广到开发人员社区。
>>>阅读全文