ETL四个阶段

数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取

(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。

1.抽取阶段的主要任务是:

     读取源系统的数据模型。

     连接并访问源系统的数据。

     变化数据捕获。

     抽取数据到数据准备区。

2.清洗阶段的主要任务是:

     清洗并增补列的属性。

     清洗并增补数据结构。

     清洗并增补数据规则。

     增补复杂的业务规则。

     建立元数据库描述数据质量。

     将清洗后的数据保存到数据准备区。

3.一致性处理阶段的主要任务是:

     一致性处理业务标签,即维度表中的描述属性。

     一致性处理业务度量及性能指标,通常是事实表中的事实。

     去除重复数据。

     国际化处理。

     将一致性处理后的数据保存到数据准备区。

4.交付阶段的主要任务是:

     加载星型的和经过雪花处理的维度表数据。

     产生日期维度。

     加载退化维度。

     加载子维度。

     加载1、2、3型的缓慢变化维度。

     处理迟到的维度和迟到的事实。

     加载多值维度。

     加载有复杂层级结构的维度。

     加载文本事实到维度表。

     处理事实表的代理键。

     加载三个基本类型的事实表数据。

     加载和更新聚集。

     将处理好的数据加载到数据仓库。

 

        从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设

计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.什么是逻辑数据映射?它对ETL项目组的作用是什么? 2.在数据仓库项目中,数据探索阶段主要目的是什么? 3.如何确定起始来源数据? 架构 4.在ETL过程中四个基本的过程分别是什么? 5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上? 抽取 7.简述异构数据源中的数据抽取技术。 8.从ERP源系统中抽取数据最好的方法是什么? 9.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。 10.简述出三种变化数据捕获技术及其优缺点。 数据质量 11.数据质量检查的四大类是什么?为每类提供一种实现技术。 12.简述应该在ETL的哪个步骤来实现概况分析? 13.ETL项目中的数据质量部分核心的交付物有那些? 14.如何来量化数据仓库中的数据质量? 建立映射 15.什么是代理键?简述代理键替换管道如何工作。 16.为什么在ETL的过程中需要对日期进行特殊处理? 17.简述对一致性维度的三种基本的交付步骤。 18.简述三种基本事实表,并说明ETL的过程中如何处理它们。 19.简述桥接表是如何将维度表和事实表进行关联的? 20.迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题? 元数据 21.举例说明各种ETL过程中的元数据。 22.简述获取操作型元数据的方法。 23.简述共享业务元数据和技术元数据的方法。 优化/操作 24.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 25.简述ETL技术支持工作的四个级别的特点。 26.如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。 27.简述如何评估大型ETL数据加载时间。 实时ETL 28.简述在架构实时ETL时的可以选择的架构部件。 29.简述几种不同的实时ETL实现方法以及它们的适用范围。 30.简述实时ETL的一些难点及其实现方法。 ......

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值