ETL的四个基本过程.

转自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html


What are the four basic data flow steps of an ETL process?


答:

Kimball 数据仓库构建方法中, ETL的过程和传统的实现方法有一些不同, 主要分为4个阶段, 分别是抽取(extract),  清洗(clean), 一致性处理(comform) 和交付(delivery). 坚持ECCD.


1. Extract 阶段的主要任务是:

读取系统的数据模型.

连接并访问源系统的数据.

变化数据捕获

抽取数据到数据准备区.


2.clean阶段的主要任务是:

清洗并增补列的属性.

清洗并增补数据结构.

清洗并增补数据规则.

清洗并增补业务规则.

建立元数据库描述数据质量.

将清洗后的数据保存到数据准备区


3. comform阶段的主要任务是:

一致性处理业务标签, 即维度表中的描述属性.

一致性处理业务度量及性能指标, 通常是事实表中的事实.

去除重复数据.

国际化处理.

将一致性处理后的数据保存到数据准备区.


4.delivery阶段的主要任务是:

加载性行的和经过雪花处理的维度表数据.

产生日期维度.

加载退化维度.

加载子维度.

加载1.2.3型的缓慢变化维度.

处理迟到的维度和迟到的事实.

加载多值维度.

加载有复杂层级结构的维度表

处理事实表的代理键.

加载三个基本类型的事实性数据.

加载和更新聚集.

将处理好的数据加载到数据仓库.



从这个任务列表中可以看出, ETL的过程和数据仓库建模的过程结合的非常紧密. 换句话说, ETL系统的设计和目标表的设计同时开始. 通常来说, 数据仓库架构师和ETL系统设计师是同一个人.




  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值