1. 概览
- ETL过程
- 从源中提取数据
- 加载数据
- 转换任务
- 模式的异构性
- 数据错误
- ELT
2. ETL:概览
- 两步
- 从源中到数据清洗区域
- 从源中提取数据
- 创建/识别差异更新
- 创建LOAD文件
- 从数据清洗区域到基础数据库
- 数据清洗和标记
- 生成集成的数据集
- DWH持续提供数据
- 保证DWH与数据源的一致性
- 从源中到数据清洗区域
- 必要的有效方法 → 最小化阻塞时间
- 必要的严谨检测 → 保证数据质量
3. ETL过程
- 经常是Data Warehousing中最昂贵(/花销最大)的部分
- 大量的数据源
- 异构性
- 数据量
- 转换的复杂度
- 模式集成和实例集成
- 数据清洗
- 几乎没有一般通用的方法或者系统支持,但是有着大量的工具可以使用
- E-提取:选择源中数据的一部分,并且准备转换
- T-转换:以给定的模式要求和质量需求来调整数据
- L-加载:将数据搜集区域的数据物理插入到数据仓库(可能有必要的聚合)
------------待更新---------------------