目录
一、划分数据域
根据业务板块划分数据域,最后落地成文档。
二、划分业务过程
根据数据域划分最细粒度的业务过程,最后落地成文档。
三、构建数据总线矩阵
根据业务板块、数据域、业务过程的划分最后形成总线矩阵,对公司的数据有了全貌的认识,为后面的工作做好铺垫,最后落地成文档。
四、数据建模
1.STG层建模
2.ODS层建模
3.DIM层建模
4.DWD层建模
5.DWS层建模
6.ADS层建模
五、数据开发
1.数据质量评估
- 数据量大小:查看表的大小
- 空值检查:查看非空字段是否有空值
- 值域检查:查看值域是否符合标准
- 重复检查:根据业务主键查看是否有重复或二个表关联查询是否有重复
- 数据完整性检查:查看父子表的参考完整性
- 数据共存检查:如果一个值有多种来源的情况,确认以哪个来源为主
2.自动生成建表和ETL脚本
1.把建模文件放到emm项目下的xlsfile目录下
2.执行emm项目下的emm.py文件,脚本会在ddl目录,json目录,sql目录自动生成
4.检查sql文件把表关联信息补上
5.把ddl、json、sql文件上传到每层的目录下
5.执行schedule.sh,测试每层的脚本
STG层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh stg stg_ord_t_commodity_di.json
ODS层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh ods ods_ord_t_brand_`df.sql
DIM层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh dim dim_sal_brand_df.sql
DWD层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh dwd dwd_sal_trd_ord_order_df.sql
DWS层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh dws dws_sal_trd_complete_date_xj_retn_order_1d.sql
ADS层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh ads ads_sal_trd_pay_date_order_sum_1d.sql
DAS层脚本
[bigdata@node101 ~]$ /home/bigdata/edw_schedule/schedule.sh das ads_sal_trd_pay_date_order_sum_1d.json