初识数据湖 - 科普

什么是数据湖?

一种支持任意数据格式、并保留原始数据内容的 大规模存储系统架构,并且其支持海量数据的分析处理。

  • 大规模存储系统架构
    • 支持任意数据格式的输入,并做到集中存储
    • 能够保留海量的原始数据
  • 支持海量数据分析处理

 

数据湖的命名(Data Lake)是比较贴合其实际意义的。

数据湖应该做到:

  • 集中存储
  • 支持任意数据格式输入等

这样需求就像是:无论大小河流(任意格式)均可将水汇入湖泊中(集中存储)。

 

我们可以认为数据湖就是一个巨大的数据集合,汇聚了来自各个系统的任意格式的原始数据,并且能够对湖泊进行利用分析,进行水的流出(分析、利用的结果)。

 

数据湖/数据集市/数仓区别

数据湖:

是整个公司内的一个开放的数据中心,接收任意类型的数据输入,对数据进行集中存储,并能对这些数据提供分析服务。

数据仓库:

是整个公司的业务数据集合,主要针对结构化的业务数据,并能提供查询分析服务。

数据集市:

是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围,或者为指定人员

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值