数据湖到底是什么？和数据仓库数据中台又有什么区别？_数据湖,数据海,数据中台的区别-CSDN博客

本文链接：https://blog.csdn.net/bdqnyczc/article/details/123479156

自互联网进入大数据时代后，涌现了非常多的数据解决方案。最早火起来的是数据库，后来又是数据仓库、数据湖，再再后来是数据中台，现在数据湖又火起来了。站在数据时代的当前风口，各大云厂商如亚马逊Amazon、阿里、微软都在纷纷基于数据湖输出解决方案；

各大互联网企业也在基于开源数据湖、计算引擎等搭建自己的企业级数据湖。那么数据湖到底是什么？和数据仓库数据中台又有什么区别？现有的数据湖解决方案又有哪些呢？我们一起来看看～

数据湖是一个可以存储各种各样原始数据的大型数据仓库。它可以存储任意类型的数据，包含非结构化数据（如传感器数据）、结构化数据（如关系型数据库Mysql产生的行列数据）、半结构化数据（如XML数据、JSON数据）、二进制数据（如音频视频）；它可以做数据生命周期管理，除了存储原始数据外，还可以存储数据处理（比如流处理、批处理）之后的数据；它可以支持多样的分析场景，比如数据仓库分析、实时分析、商业智能分析、机器学习。

数据湖、数据仓库、数据中台又有什么区别呢？从名字上就可以看出一二。所谓数据湖，就是存放数据的湖，湖水是流动的，能接受其它江河湖海流过来的水，又再流出去，也就是说在数据湖中可以存储一切的数据，不做任何处理；所谓数据仓库，就是存放数据的仓库，那必然是有要求和目的，也就是说在数据仓库中对数据格式有要求，符合标准的数据才能入库，而且建立数据仓库是有目的的，比如面向成本、面向销售额进行分析；所谓数据中台，一看就是阿里提出的概念相符合的，中台作为前台和后台的一部分，是赋能业务的，为业务提供数据能力。

那么一个具体的数据湖系统是什么样呢？抽象的来看包括四部分，数据存储层、数据加速层、数据处理层、数据计算层。数据湖是以对象块或文件为单元进行存储，在数据存储层，云上用户一般采用S3、OSS对象存储，本地用户则使用HDFS进行存储；在数据加速层，主要是把经常用的数据拿出来做集中式的存储，保障用户快速获取，也减轻网络带宽成本；在数据处理层，主要是把数据文件封装成有业务意义的内容，比如支持ACID（事务原子性、一致性、持久性、隔离性）、支持Schema、支持Snapshot，开源的解决方案有iceberg、Hudi；在数据计算层，主要是进行数据任务的执行，比如Spark、Flink、HIve的批处理流处理等。