数据源
数据源可以为任一业务系统数据,亦可以为行为数据,在这以资产负债系统为例。
上游系统数据载入
一般银行资产负债系统会有多家上游系统,用于本系统的报表报送,本系统产品跑批及为下游系统供数:
- 明确上游数据规则 ,如增全量,文件到达时间,数据文件类型,数据逻辑是否满足直取规则,若需二次加工如何处理;
- 明确数据进入方式,明确本集市的数据是否由ods直取,明确是否需要第三方传输工具;
- 数据由ods直取,配置调度脚本 + sql脚本即可实现。(insert 即可)
- 数据由其他传输工具传输,文件传输至hdfs目标目录后,需要创建外部表去加载数据,(此格式优先推荐parquet),最后经过调度把数据传输至集市中。
上游系统数据质量
数据仓库应该严格控制数据质量,对于入仓的数据严格把关。
- 数据带有空格 对于上游系统数据存至空格情况给予驳回,不给其入仓,直至无该状况。
- null值处理 对于null值,应该给予默认值处理,一般处理为空串。
集市建立
多个集市构成数据仓库,每一个集市都在承担着一个承上启下的作用,即接收上游相关接口数据,加工,为下游系统提供数据,为本系统提供报表数据支持。
明确接口指标
- 调研相关系统需求接口清单,如alm,ftp,ec,rpm
- 确定下游需求文件格式,时间节点
单元测试
导入测试数据,验证代码运行状况,配置调度作业。
联调测试
通过调度作业,把集市数据发送至相关下游系统,下游系统加载数据,验证数据量是否与发出一致,有无bad文件。
上线
联调测试成功后,按上线计划进行上线。
数据验证
上线成功后,次日验证数据质量。