什么是数据湖?
一种支持任意数据格式、并保留原始数据内容的 大规模存储系统架构,并且其支持海量数据的分析处理。
- 大规模存储系统架构
- 支持任意数据格式的输入,并做到集中存储
- 能够保留海量的原始数据
- 支持海量数据分析处理
数据湖的命名(Data Lake)是比较贴合其实际意义的。
数据湖应该做到:
- 集中存储
- 支持任意数据格式输入等
这样需求就像是:无论大小河流(任意格式)均可将水汇入湖泊中(集中存储)。
我们可以认为数据湖就是一个巨大的数据集合,汇聚了来自各个系统的任意格式的原始数据,并且能够对湖泊进行利用分析,进行水的流出(分析、利用的结果)。
数据湖/数据集市/数仓区别
数据湖:
是整个公司内的一个开放的数据中心,接收任意类型的数据输入,对数据进行集中存储,并能对这些数据提供分析服务。
数据仓库:
是整个公司的业务数据集合,主要针对结构化的业务
数据,并能提供查询分析服务。
数据集市:
是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围,或者为指定人员