The 38 Subsystems of ETL
?
By Ralph Kimball, 2004年4月
?
1.抽取系统(Extract System)
?
主要功能包括源数据的适配器,推/拖/搬运数据的工作调度,对源数据的过滤和排序功能,数据格式的转换,迁移到ETL环境后的数据暂存功能。
?
2.变化数据捕获系统(Change Data Capture System)
?
主要功能包括对源数据日志文件的阅读功能,源数据日期和序列号的过滤功能,基于CRC算法的记录比较功能。
?
3.数据概况分析系统(Data Profiling System)
?
主要功能包括字段属性分析,如参照域的分析;结构分析,如主外键关系分析;数据规则分析;值规则分析等。
?
4.数据清洗系统(Data Cleansing System)
?
主要功能包括一个典型的数据字典驱动的系统,用于解析个体和组织的名称、地址等信息,也用来解析产品、场所等内容;一个“De-duplication”系统,用于鉴别和移除个体和组织信息,也用于产品和场所;一个“Surviving”系统,使用特定的数据合并逻辑,用来保存特定数据源的指定字段,这个特定数据源的数据将成为数据仓库的最终版本;为所有的数据源维护后台数据的对应关系,如自然键和代理键对应关系等内容。
?
5.数据一致性处理系统(Data Conformer System)
?
主要功能包括标识和生成专用的一致性维度属性、一致性事实的度量属性,这两组属性作为数据整合工作的基础,用来支持跨多个数据源的数据集成工作。
?
原文请参阅这里。<o:p></o:p>
<o:p>?</o:p>
?