转自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html
What are the four basic data flow steps of an ETL process?
答:
Kimball 数据仓库构建方法中, ETL的过程和传统的实现方法有一些不同, 主要分为4个阶段, 分别是抽取(extract), 清洗(clean), 一致性处理(comform) 和交付(delivery). 坚持ECCD.
1. Extract 阶段的主要任务是:
读取系统的数据模型.
连接并访问源系统的数据.
变化数据捕获
抽取数据到数据准备区.
2.clean阶段的主要任务是:
清洗并增补列的属性.
清洗并增补数据结构.
清洗并增补数据规则.
清洗并增补业务规则.
建立元数据库描述数据质量.
将清洗后的数据保存到数据准备区
3. comform阶段的主要任务是:
一致性处理业务标签, 即维度表中的描述属性.
一致性处理业务度量及性能指标, 通常是事实表中的事实.
去除重复数据.
国际化处理.
将一致性处理后的数据保存到数据准备区.
4.delivery阶段的主要任务是:
加载性行的和经过雪花处理的维度表数据.
产生日期维度.
加载退化维度.
加载子维度.
加载1.2.3型的缓慢变化维度.
处理迟到的维度和迟到的事实.
加载多值维度.
加载有复杂层级结构的维度表
处理事实表的代理键.
加载三个基本类型的事实性数据.
加载和更新聚集.
将处理好的数据加载到数据仓库.
从这个任务列表中可以看出, ETL的过程和数据仓库建模的过程结合的非常紧密. 换句话说, ETL系统的设计和目标表的设计同时开始. 通常来说, 数据仓库架构师和ETL系统设计师是同一个人.