数据智能产业创新服务媒体
——聚焦数智 · 改变商业
本月,知名开源大数据引擎Flink社区对外透露,2022年阿里巴巴、腾讯、字节跳动等中国企业贡献了超过一半的代码,其中阿里巴巴对Flink核心代码贡献最大,中国开发者已经成为Flink全球化社区的中坚力量。
Flink是全球范围内被广泛使用的开源大数据计算引擎, 数据显示,Flink的Github Star数和贡献者人数每年以超30%的速度增长,Github Star数超2万个,上千名贡献者(contributors),月下载量峰值突破1400万次,连续两年蝉联 Apache基金会财年报告最活跃项目。
来源:Flink
作为分布式流数据流引擎,流计算引擎内核是Flink的核心竞争力之一,Flink不断进行加速优化以及提升容错能力,而其另一个核心竞争力“流批一体”则在近年来备受关注。
什么是流批一体?我们知道实时生成流数据,离线生成批数据,如采用不同系统处理,很容易产生数据延迟、数据不一致等问题,流批一体模型将流数据和批数据集成到同一个处理系统中,实现更加实时、高效、灵活的数据处理,同时减少不必要的系统复杂性。
随着大数据在电商、金融、物联网、电信等领域的深入应用,实时数据已经成为必选项,处理好“流批一体”保证批流数据一致,已成为必答题,经历过数个双11,活跃在100多家企业,目前已是全球范围内大数据实时计算业界事实标准的Flink正在解答这个问题。
阿里引领Flink迅速崛起,成为事实上的行业标准
Flink 最初是由德国柏林工业大学的几个博士生和研究生从学校开始做起来的大数据研究项目,2014年,其核心成员在此基础上开发了 Flink,同时将 Flink 计算的主流方向定位为Streaming(流式计算),并在同年将 Flink 捐赠给 阿帕奇软件基金会。一年后,Flink即成为 Apache 的顶级项目。
后来Flink社区又经过九年的发展,持续保持流式计算的领先地位,有超过20万开发者关注、超过100家国内外知名公司参与代码贡献,成为了全球范围内实时流计算的事实标准,可以说在全球的各个行业,只要大家想到实时流计算,基本上都会选择 Apache Flink。
而随着Flink 国际化生态不断繁荣发展的过程中,中国开发者在其中发挥了越来越大的作用,根据OSS Insight 网站的数据统计,目前Flink 社区在 Github 上产生的 Pull Request 有 45% 是来自中国的开发者。
2020年Flink中国社区诞生(https://flink-learning.org.cn/),2022年,众多国内开发者在Flink 社区公众号上发布了文章, Flink 社区公众号的订阅人数亦超过 6万名,今年还推出了 Apache Flink 官方视频号。
Flink近年来在中国的繁荣与引领全球的发展,这一切与阿里巴巴在其中的推动作用是分不开的。最初Flink是在搜索推荐中进入阿里开发者的视线,后来其在走向巅峰