1.什么是数据仓库:
一个⾯面向主题的 (Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)反映历史变化(Time Variant)的数据集合,用于⽀持管理决策(Decision Making Support)。同时也是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。
2.为啥需要创建数据仓库
- 1、集中化管理数据
- 2、更高效的⽅式使用数据
- 3、数据量巨大和数据复杂度冗杂
- 4、数据驱动业务
- 5、⼤数据分析来提升产品竞争⼒
- 6、时刻知道业务发展情况
3.数据仓库架构图
补充:
1.什么是数据中台
广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的1000个基础模型,500个融合模型,1万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。
参考链接:数据中台的详细介绍
2.什么是数据湖
维基百科:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
参考链接:数据湖的介绍
3.数据湖与数据中台有什么区别
数据湖和数据仓库两者都广泛应用于大数据存储,但两者之间概念不可互换。数据湖是存储原始数据的池,目的仍没有明确。数据仓库存储结构化的、已过滤、处理的数据,用于特定分析目的。两种数据存储架构经常被混淆,起始两者之间差异大于共性。事实上,唯一共性都为了存储海量数据。了解两者区别很重要,因为它们服务于不同的目的,需要使用不同的视角进行理解。
下面是AWS对数据湖与数据仓库的区分: