一、项目概览
概览图:
一、项目目的
这是一个上市集团的离线数仓项目:
该集团由多个公司组成,且每一个公司其对应着一个业务,然后形成一个完整的生产链。其中每一个公司都有属于自己的业务系统,系统所产生的数据会存储到该公司的数据库中,而不同系统所用的数据库不同,也就是我们数仓的数据来源,其中包括:MySQL、SqlServer2000、SqlServer2014、Oracle、hive等这些数据库服务。然后我们现在的目的就是将这个集团所有公司的数据进行打通串起来,因为在 没有进行项目之前,所有公司的业务数据独立性强,而产生的数据可利用性弱,然而数据对于企业来说是重要资产之一。通过分析数据可以分析集团中业务以及盈利问题,总结并解决潜在痛点和挖掘未来盈利点,这些数据起到了重要的作用。
二、项目流程
分析需求---对业务以及业务数据探索---(测试/生产)环境部署---数仓建模---ETL清洗、转换、推送数据---数据应用
1、分析需求
2、对业务以及业务数据探索
首先,需要对各个系统进行探索,了解哪些系统产生了哪些表和哪些数据。
其次,需要对业务数据和系统进行关联探索,探索哪一步业务对应哪一个系统,哪些一步业务对应哪些数据和表。然后将所关联的表用SQL将其关联起来。
最后,将所有业务流程理清,然后找到每一个业务系统所对应哪些业务步骤,然后找到每一个业务节点所产生的表和数据。用业务总线矩阵给它列出来,让整个业务流程和对应的系统还有表数据看起来更加清晰。
3、测试和生产环境部署
4、数仓建模
5、ETL清洗、转换、推送数据
6、数据应用
待完善!!!!!