本文介绍什么是数据仓库,数据湖,湖仓一体,并简单介绍各自的特点。
1. 数据仓库
数据仓库的英文名为Data Warehouse,简写为DW。它由数据仓库之父比尔·恩门 (Bill Inmon)于1990年提出。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。它具有以下典型的特点:
- 高执行效率:数据仓库处理的数据量巨大,且分析周期一般以天为单位,因此对分析的时效性要求相对较高,这就需要它具有高效率的数据存储和处理能力。
- 高数据质量:进入数据仓库的数据一般会经过数据清洗的环节,因此可能导致数据失真的脏数据会被清除,从而保证数据仓库提供的信息是准确的。
- 高扩展性:数据仓库的设计和建设一般会考虑未来3-5年的情况。
- 面向主题:数据仓库中的数据是按照一定的主题域进行组织的。主题是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
传统的数据仓库架构如下图所示:
2. 数据湖
数据湖的英文名为Data Lake。数据湖是一类存储数据原始格式的系统。它通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表