栏目语
数澜科技开设全新栏目「技术派+」,聚焦前沿技术,洞悉行业风向,分享来自一线的研发经验与应用实践。
本期专栏由数澜科技研发专家六木带来,探索流批一体实时数仓建设路径。
导语
在数据仓库建设过程的开始阶段,企业的业务场景基本都是基于批处理的模式,利用成熟的离线技术来构建离线数仓,中间可能也会夹杂些实时处理的场景,但大多会转化为准实时的处理模式,如分钟级调度。
随着时代发展,企业业务数据呈几何式飞速增长,传统离线数仓不足逐渐毕露,准实时处理方式已经不足以满足业务诉求,企业开始着手构建实时数仓。
在实时数仓建设过程中,用同一套代码实现大数据的流计算和批计算,进而保证处理过程与结果的一致性的“流批一体”技术理念被业界广泛认可,并在多个业务场景中成功验证,逐渐走向落地。
一、流批一体技术理念发展
回顾来看,实时数仓技术架构发展主要经历了三个阶段:Lambda架构、Kappa架构、搭载数据湖的Kappa架构。
在Lambda架构中,批处理和流处理是分开的,通过周期调度来进行离线数据采集和加工,中间数据也能保存下来,同时实时流处理可以快速提供加工好的数据。批处理保障数据的准确性,流处理保障数据的及时性,架构稳定性也比较好。
但另一方面,