数据湖&数据仓库&仓湖一体

数据湖&数据仓库&仓湖一体

首先提及一个最常用的概念数据库, 但凡是线系统基本都离不开数据库。数据库最主要的功能就是要强调事务处理, 比如 QPS(每秒查询数)、TPS(每秒事务数) 和 IOPS(每秒读写数)
但是数据库擅长的是事务性工作, 对于分析型的工作并不擅长,于是诞生了数据仓库
随着企业持续的发展,虽然含金量比较高的数据都在”数据库“和”数据仓库“中。但是公司希望把生产经营相关的所有数据都保存下来,方便后续沙中淘金,可以构建起来数据湖。|
而根据数据湖和数据仓库的特点,数据仓库前期构建成本高,但是随着业务数据增长后期成本可控。而数据湖的特点是前期的构建成本很低。但是随着业务数据增多后期的成本越来越高。为了结合两部分的优缺点构建了仓湖一体的概念来建设系统。

核心概念

  • 数据仓库:数据仓库是一种面向商务智能(BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。
  • 数据湖:一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件
  • 仓湖一体:是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。

典型应用

数据库:Mysql、MongoDB
数据仓库:GreenPlum、Teradata
数据湖:Hudi、Delta、Iceberg
仓湖一体:阿里云MaxCompute、火山引擎-LAS、华为云FusionInsigh

整体架构

当前典型的湖仓一体的架构如下图所示:

蓝色数据流是离线数据流,实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse 、Redis、Hbase等专题集市里对外提供服务

总结

从数据库、数据仓库、数据湖、再到湖仓一体其实整体的演进过程都是针对不同的业务需求逐步演进出来的。 LakeHouse是一种当前比较新数据管理范式,从根本上简化了企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加速创新。但是仓湖一体也不是万能药,相信在未来发展变化的过程中,会涌现出来更新的需求和架构来满足不同业务发展的诉求。

参考

标题URL
What Is a Lakehouse?https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
数据仓库是什么?https://www.oracle.com/cn/database/what-is-a-data-warehouse/
数据湖(Data Lake) 总结https://zhuanlan.zhihu.com/p/91165577
什么是湖仓一体?https://www.modb.pro/db/60180
火山引擎https://www.volcengine.com/product/las
LakeHouse湖仓一体成为下一站灯塔,数仓、数据湖架构即将退出群聊http://www.5suns.cn/article/201
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

敦兮其若朴,旷兮其若谷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值