1.3.1 基本架构
RDS(RAW DATA STORES)是原始数据存储的意思
TDS(TRANSFORMED DATA STORES)意为转换后的数据存储。这是真正的数据仓库中的数据。
自动化调度组件的作用是自动定期重复执行ETL过程:
传统数据仓库一般利用操作系统自带的调度功能(如Linux的cron或Windows的计划任务)实现作业自动执行。
1.3.2 主要数据仓库架构
几种主要的架构方法:包括数据集市架构、Inmon企业信息工厂架构、Kimball数据仓库架构和混合型数据仓库架构。
操作数据存储又称为ODS,是Operational Data Store的简写,其定义是这样的:一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。
在一个数据仓库环境中,ODS具有如下几个作用:
(1)充当业务系统与数据仓库之间的过渡区。
(2)转移部分业务系统细节查询的功能
(3)完成数据仓库中不能完成的一些功能。
1.4 抽取-转换-装载
ETL:它是Extract、Transform、Load三个英文单词首字母的简写,中文意为抽取、转换、装载。
1.4.1 数据抽取
1.逻辑抽取
有两种逻辑抽取类型:全量抽取和增量抽取。
2.物理抽取
依赖于选择的逻辑抽取方法和能够对源系统所做的操作和所受的限制,存在两种物理数据抽取机制:直接从源系统联机抽取或者间接从一个脱机结构抽取数