Apache Flink是一个顶级Apache项目,它允许统一分布式流和批处理。 Apache Flink的核心是流数据流引擎,该引擎为数据流上的分布式计算提供数据分发,通信和容错能力。
8月27日,湾区Apache Flink聚会活动由MapR主持。 这次,主要主题是使用Apache Flink进行分布式有状态流和图形分析。 我们很幸运地接待了来自瑞典的三位特别嘉宾,他们是来自几个致力于研究和增强Apache Flink的学术机构的研究人员。 GyulaFóra是Apache Flink的项目管理委员会(PMC)成员,目前在瑞典计算机科学研究所担任研究员。 Vasia Kalavri是斯德哥尔摩KTH的一名博士研究生,也是Apache Flink的PMC成员,他专注于研究Apache Flink的图形处理API Gelly。 最后但并非最不重要的一点,Paris Carbone是瑞典皇家技术学院的分布式计算博士学位和Apache Flink的撰稿人。
此外,我们还受到来自MapR的特邀演讲者Ted Dunning的荣幸,他是MapR Technologies的首席应用程序架构师,也是Apache Mahout , Apache ZooKeeper和Apache Drill项目的提交者和PMC成员。 在孵化期间,他还是Apache Flink的导师。 泰德(Ted)分享了他在使用微批量处理方面的专业知识和知识,以及为解决这些问题需要提供真正的流媒体解决方案的内容。
像全球其他许多Apache Flink见面会一样,当晚也开放了社区自上次见面以来有关Apache Flink的更新 。 一些值得注意的新更新包括作业管理器仪表板的新UI,更多文档更新,Gelly Scala API,高可用性支持以及Java 6在master分支中的删除。 还宣布了有关Flink的第一次会议,称为“ Flink Forward”,将于10月12日至13日在德国柏林举行( http://flink-forward.org )。
在第一个演讲中,GyulaFóra提出了一个关于在几种不同流行流框架中的有状态分布式流处理的演讲(请参见此处的幻灯片 )。 他展示了每种框架用来支持有状态流处理概念的不同方法。 演讲讨论了状态处理的基本概念以及高级用例和示例。
数据的状态处理要求进行计算以在过渡到另一组数据期间维持状态。 有状态处理的一些示例包括对流数