ETL开发
概述
ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。
分层的作用:
1.划分ETL阶段工作重心,便于管理
2.降低开发和维护成本
3.减少需求变化带来的冲击
4.便于数据问题跟踪
名词解释:
ODS——操作性数据
DW——数据仓库
DM——数据集市
STG层
在维度建模阶段已经确定了源系统,而且对源系统进行了数据评估。STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。
STG作用: 减轻源系统压力;数据备份,支持重跑;便于问题跟踪;数据质量检查&