【ETL】开发过程描述

A. 数据源分析文档(前期的分析)

a) 源的表

b) 每个表字段属性

c) 记录数

d) 数据质量分析

B. 目标的文档

a) 源的表

b) 每个表字段属性

c) 建议采用建模工具Sybase PowerDesigner CA Erwin

d) DBA 参与目标表的设计:

e) 目标表的设计:

Ø         维表和事实表的开始时间和结束时间。

Ø         事实表的约束

Ø         索引影响性能

n         Disable

n         Delete

n         Enable

n         Create

n         Loader

f) 维表是否要保留所有的历史记录?

n         要历史数据:主键,开始和结束时间。

n         不要的:保持最近的

n         缓慢变化维

C. ETL 设计的详细文档

a) Velocity

b) 源对目标的映射

c) 业务规则转换(字段级)

d) 清洗规则定义

D. 测试文档

a) 单元测试文档

b) 集成测试文档

E. 开发人员要维护的文档

a) Mapping 的设计文档:

(1) Mapping 的名字,功能描述

(2) 每个组件的名字,用途描述,实现功能,技巧。 特殊复杂转换描述。

b) Workflow 流程设计文档

c) 设计变更文档

d) 对数据量的估算文档(源、中间过程及目标)

l         每天的增量

l         条数,每条的长度

l         作业的复杂程度评估

l         Session 运行的经验值(如果跟开发环境不一致,没有太大的参考价值)

l         Lookup 等组件占用内存的估算。

l         设计到性能的每个组件的描述:lookup 个数,关联的字段数。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值