ETLProcess.png
- Extract
提取有效的数据 - Transform
- 将提取的数据转换为数据仓库模式/格式
- 构建keys:一个key是一个或多个数据属性的惟一标识实例,key的类型可以是主键(primary key)、外键(foreign key)、替代键(alternate key)、复合键(composite key)以及代理键(surrogate key)。这些key只允许数据仓库进行维护管理,且不允许其他任何实体进行分配。
- 数据清理:在提取好数据后,则进入下一个节点:数据清理。对提取的数据中的错误进行标识和修复。解决不同数据集之间的不兼容的冲突问题,使数据一致性,以便数据集能用于目标数据仓库。通常,通过转换系统的处理,我们能创建一些元数据(meta data)来解决源数据的问题,并改进数据的质量。
- Load
- 将转换后的数据载入数据仓库
- 构建聚集:创建聚集对数据进行汇总并存储数据至表中,以改进终端用户的查询体验。
什么是ETL测试
ETL测试是为了确保从源到目的地数据经过业务转换完成后是准确的。
同时它还涉及数据的验证,即从源到目的地数据各个不同阶段验证数据。
ETL是Extract-Transform-Load的缩写。
ETL测试过程
与其他测试过程类似,ETL也需要经历不同的测试阶段。其流程如下:
ETLTestingProcess.png
ETL测试过程主要分为以下五大阶段:
- 分析需求、业务和源数据
- 获取数据
- 实现业务逻辑和维度建模
- 构建和填充数据
- 生成报告