什么是湖仓一体


数据湖回顾
在之前的文章《什么是数据湖》中提到数据湖遇到的几个挑战:

什么是数据湖_白月蓝山的博客-CSDN博客

不支持事务,缺乏对数据质量和治理的约束,缺乏性能优化的手段。
缺乏对数据质量和治理的约束,数据存在可靠性的问题
元数据存储的扩展性差,随着数据湖的数据越来越多,查询性能变得越来越慢
湖仓是如何解决这些挑战的
如何解决数据湖面临的挑战?在数据湖的基础之上引入事务层,把数据湖和数据仓库的优点有机结合在一起,形成了一个可以同时支持数据分析、数据科学、机器学习运行的系统。

什么是湖仓
湖仓的主要特性:

事务支持:一个企业级的湖仓会有同时多个数据流并发的读和写。ACID事务的支持可以保证并发读写数据时的一致性。
BI支持:支持通过BI工具直接访问数据,以降低延迟、并且降低了成本(一份数据不需要同时在数据湖和数据仓库中存储两个拷贝)。存算分离:存储和计算分开在不同集群,方便扩展以支持存储更多的数据和支持更多的并发访问。
开放:存储格式开放,如Parquet; 提供标准化的访问API以支持各种不同的工具和引擎高效地操作数据。
支持各种不同的数据类型,非结构化到结构化:湖仓支持各种应用程序存储、修改、分析、访问像图像、视频、音频、半结构化数据和文本。
支持不同的工作负载:包括数据科学、机器学习、SQL和分析。
端到端的流:实时报表是企业中常见的应用。对流的支持,使得企业不需要再额外搭建一套系统来服务实时的应用。
以上都是湖仓的主要特性。当然,企业级的应用还需要其他额外的特性,如数据安全、访问控制,审计、生命周期、血缘等数据治理方面的能力,以及数据目录、数据指标等。


当前主流的湖仓方案
DeltaLake, Hudi , Iceberg, 具体可见文章《湖仓方案DeltaLake、Hudi、Iceberg功能对比》
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值