ETL开发流程小记(1)

ETL开发

数据仓库ODS到DWD的ETL工作流程记录

ETL工作目标

目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题

ETL工作目的主要有:
		1.源系统ERP各城市库的整合
		2.每个城市不同规则的统一、数据转换
		3.数据缺失值的处理(填充的规则怎么定)
		4.异常值的处理
		5.内容中不该出现或者存在的字符处理(寻找我们应用的数据的前端校验设计是否良好)
		6.去重处理
		还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据

ETL工作流程

准备工作
逻辑设计
ETL脚本开发
脚本自测
  • 准备工作-ETL设计-脚本开发-脚本自测

准备工作

1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题
	ETL设计-数据格式需求.doc
2.准备好 数据仓库dwd层建表DDL	-->
	销售主题域DW层定版-20191119.xlsx
	其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句
	数据仓库数据字典0802.xlsx
	为源系统的数据字典
3.审核确定事实维度表的加载策略,变更内容、变更记录
4.清洗规则说明.doc
5.脚本规范说明
6.脚本模版说明

ETL开发上线包

主要任务介绍上线包文件组成

ETL开发模版统一和规范

  • 统一出事和周期开发脚本模版
  • 统一数据处理变更脚本模版
  • 统一应用开发脚本模版
  • 统一Sql 文件脚本模版
  • 统一ETL逻辑设计文档模版
  • 规范类型转换
  • 规范脚本测试和自测
  • 规范自动调度系统配置

ETL设计

  • 主要任务:
    完成ETL过程设计
    (数据整合、转换、清洗、数据勘查的设计)
    • 输出:
      数据缺失异常值校验.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
    • 此表中包含
      ods层到dwd 或者中间表的 映射
      ETL工作者归属
      每个表的清洗、整合逻辑记录在此表

ETL开发

  • 主要任务:
    根据ETL设计的逻辑开发脚本
    • 输入:
      数据仓库数据字典0802.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
      销售主题域DW层定版-20191119.xlsx
    • 输出:
      初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob

ETL测试

自动调度系统配置

待完善

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值