数仓_若只是初见

1.什么是数据仓库:

一个⾯面向主题的 (Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)反映历史变化(Time Variant)的数据集合,用于⽀持管理决策(Decision Making Support)。同时也是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。

2.为啥需要创建数据仓库

  • 1、集中化管理数据
  • 2、更高效的⽅式使用数据
  • 3、数据量巨大和数据复杂度冗杂
  • 4、数据驱动业务
  • 5、⼤数据分析来提升产品竞争⼒
  • 6、时刻知道业务发展情况

3.数据仓库架构图

在这里插入图片描述

补充:

1.什么是数据中台

广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的1000个基础模型,500个融合模型,1万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。

参考链接:数据中台的详细介绍

2.什么是数据湖

维基百科:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

参考链接数据湖的介绍

3.数据湖与数据中台有什么区别

数据湖和数据仓库两者都广泛应用于大数据存储,但两者之间概念不可互换。数据湖是存储原始数据的池,目的仍没有明确。数据仓库存储结构化的、已过滤、处理的数据,用于特定分析目的。两种数据存储架构经常被混淆,起始两者之间差异大于共性。事实上,唯一共性都为了存储海量数据。了解两者区别很重要,因为它们服务于不同的目的,需要使用不同的视角进行理解。

下面是AWS对数据湖与数据仓库的区分:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值