初识数据湖 - 科普

什么是数据湖?

一种支持任意数据格式、并保留原始数据内容的 大规模存储系统架构,并且其支持海量数据的分析处理。

  • 大规模存储系统架构
    • 支持任意数据格式的输入,并做到集中存储
    • 能够保留海量的原始数据
  • 支持海量数据分析处理

 

数据湖的命名(Data Lake)是比较贴合其实际意义的。

数据湖应该做到:

  • 集中存储
  • 支持任意数据格式输入等

这样需求就像是:无论大小河流(任意格式)均可将水汇入湖泊中(集中存储)。

 

我们可以认为数据湖就是一个巨大的数据集合,汇聚了来自各个系统的任意格式的原始数据,并且能够对湖泊进行利用分析,进行水的流出(分析、利用的结果)。

 

数据湖/数据集市/数仓区别

数据湖:

是整个公司内的一个开放的数据中心,接收任意类型的数据输入,对数据进行集中存储,并能对这些数据提供分析服务。

数据仓库:

是整个公司的业务数据集合,主要针对结构化的业务数据,并能提供查询分析服务。

数据集市:

是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围,或者为指定人员提供服务。

比较

数据仓库

数据集市

数据湖

应用范围

全公司

部门或工作组

全公司

数据类型

结构化数据处理

结构化数据处理

任意格式数据处理

存储规模

大量

中等规模(小型数仓)

海量

数据应用

维度建模、指标分析

小范围数据分析

海量任意格式分析、不限应用的类型

新应用开发周期

数据写入模式

  • 写时模式

数据在写入之前,就需要定义好数据的schema,数据按照schema的定义写入

  • 读时模式

数据在写入的时候,不需要定义Schema,在需要使用的时候在使用Schema定义它

 

数据湖就是一种读时模式思想的具体体现

相比较写时模式而言,读时模式因为是数据在使用到的时候再定义模型结构(Schema),因此能够提高数据模型定义的灵活性,可以满足不同上层业务的高效率分析需求。

因为,对于写时模式而言,如果想要事后更改Schema是有很高的成本的。

而读时模式可以在用的时候再定义Schema就很灵活了,同一套数据可以用不同的Schema来定义,来获取不同的效果。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页