01总体设计
我们为什么需要数据湖,数据湖又能解决哪些痛点问题?
在数据应用中,需要存储的数据不仅有格式化数据,也有非格式化数据,如:文本视频、图片、音乐等。多种数据格式的数据,如何进行集中式的数据存储,那就是今天的主角数据湖,数据湖可以实现离线和实时底层数据存储的统一,并解决Kappa架构的痛点问题。
Kappa架构痛点问题:
1)Kafka不支持海量数据存储;
2)Kappa架构中使用Kafka做分层,Kafka不支持SQL、 OLAP分析;
3)Kafka做分层,不能很好集成原有的数据血缘关系系统、数据质量管理系统;
4)Kafka不支持数据的更新,只支持数据的Appand。
02系统核心设计
数据驱动决策正在加速推动数据存储的转变,各行业陆续跟进采用了数据湖存储各种数据。但数据湖采用新的原始数据存储和处理范式,缺乏构造和治理,会迅速沦为“数据沼泽”。
可视化湖仓一体作为一种新型数据架构,它同时吸收了数据仓库和数据湖的优势,数据开发工程师、数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能对当前数据治理以及过去数据沼泽开荒带来更多的便利性。
科杰科技核心设计如下图所示:
Iceberg概念及特点
Apache Iceberg 是一种用