数据平台发展史-从数据仓库数据湖到数据湖仓

本文介绍了数据平台的发展历程,从数据仓库、数据湖到数据湖仓的演变。数据仓库主要支持BI分析,数据湖则在大数据时代兴起,支持AI场景。数据湖仓融合了两者的优势,提供了ACID事务支持和数据治理能力,同时兼容BI和AI。文章探讨了数据湖仓的特性、架构及典型框架,如Delta Lake、Apache Hudi和Apache Iceberg,并给出了企业应用数据湖仓的建议。
摘要由CSDN通过智能技术生成

数据平台发展史-从数据仓库数据湖到数据湖仓

做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fabric等.

笔者在这里回顾了下数据平台的发展史,也介绍和对比了下常见的概念,主要包括数据仓库,数据湖和数据湖仓,希望大家有所收获。

回顾数据平台发展历史,梳理数据平台变迁脉络,更全面准确地理解数据仓库数据湖和数据湖仓!

1 数据平台概述

所谓数据平台,主要是指数据分析平台,其消费(分析)内部和外部其它系统生成的各种原始数据(比如券商柜台系统产生的各种交易流水数据,外部行情数据等),对这些数据进行各种分析挖掘以生成衍生数据,从而支持企业进行数据驱动的决策:An analytics platform is a unified solution that combines technologies to meet enterprise needs across the end-to-end analytics lifecycle from data storage, data management, data preparation, and other data analytics processes.

数据分析平台既可以部署在本地,也可以部署在云端,其典型特征有:

  • 数据分析平台,需要上游系统(内部或外部)提供原始数据;
  • 数据分析平台,会经过分析生成各种结果数据(衍生数据);
  • 数据分析平台,生成的结果数据,一般主要服务于企业自身,支持企业进行数据驱动的决策,从而助力企业更好地经营:为顾客提供更好的服务,企业自身降本增效更好地运营,或发现新的商业洞察从而支持新的商业创新和新的业务增长点等(foster innovation);
  • 数据分析平台,生成的结果数据,也可以服务于外部客户: 通过数据变现,为企业创造新的业务模式和利润增长点;(各种提供数据服务的公司)
  • 数据分析平台,支持各种类型的数据分析应用,包括BI也包括AI;

数据(分析)平台,常见的相关术语有:数据仓库,数据湖,数据湖仓,数据中台,逻辑数仓 Logical data warehouse,数据编织 Data fabric,Data mesh 等:

  • 数据仓库,数据湖,数据湖仓/湖仓一体:是数据平台主要的支撑载体,是当前使用最广泛的术语,其中数据湖仓也称湖仓一体,本质是数据湖的2.0版本;
  • 国内也经常讲数据中台:数据中台在数据仓库数据湖数据湖仓的基础上,强调了将数据进行服务化API化,从而支持更快速敏捷地开发各种新型数据应用;
  • 数据编织 Data fabric,数据网格 Data mesh:是随着企业云化迁移以及微服务架构兴起,逐渐流行起来的新的术语,在管理数据时更强调数据天然分布式的特性和数据产品的理念(数据是一种产品,来自不同服务由不同团队管理);
  • 需要注意的是,数据仓库,数据湖与数据湖仓虽然有着明显的学术定义上的区别,但是在业界很多场景下我们并不严格区分三者;

本次分享,我们主要关注数据仓库数据湖和数据湖仓

2 数据平台发展史-从数据仓库数据湖到数据湖仓

整个数据平台的发展史,其实可以用一句话简单概括下:数据平台的发展,是随着企业信息化和数字化的逐渐推进,从数据库,数据仓库,数据湖到数据湖仓逐渐演进的

  • 在企业信息化早期,建设了各种线上业务系统如 ERP/CRM/OA等,这些业务系统通过数据库沉淀了多种数据,其数据库一般采用的是 OLTP的关系型数据库;
  • 随着信息技术的进一步发展,企业逐渐意识到数据具有价值,并可以通过各种分析方法挖掘其中的价值,支持企业的管理决策,于是逐渐有了数据仓库平台(数据仓库诞生于数据库时代);
  • 随着大数据时代的到来,数据在种类和体量上都有了爆炸式的增长,数据的存储和分析处理技术也有了进一步发展,为更好地挖掘数据中的价值,出现了数据湖平台(数据湖脱胎于大数据时代,有着很强的开源和开放的基因);
  • 随着企业向数字驱动进一步迈进,对数据的存储和分析处理有了更高的要求,出现了融合数据仓库和数据湖各自特点的新型数据平台,其实质是数据湖2.0,也被称为数据湖仓;

2.1 数据仓库

数据仓库(Data Warehouse),是由被誉为全球数据仓库之父的 W.H.Inmon 于1990年提出的,其相对学术的解释:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享

  • 所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;
  • 所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;
  • 所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
  • 所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;
  • 之所以使用数据仓库而不是前台线上业务系统的OLTP数据库进行BI等数据分析,一个重要的原始是OLTP只能应对简单的关联查询,支撑基本的和日常的事务处理,不适用数据的多维度分析;而数仓底层一般是擅长多维分析的OLAP数据库(还有一个原因是数据分析属于后台系统,不能影响前台线上业务系统的性能)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值