之前算是经历了一个团队的数据体系从比较原始的状态到相对比较完善的数据仓库的演变过程,大概记录下,有个方向和思路。
1.原始状态
业务上
纯需求驱动,无明确分工;
根据需求,联系原数据方,通过各种技术手段得到结果。
技术上
数据存储
主要依赖oracle和mysql,绝大多数存储在oracle中。
任务调度
大部分通过可执行jar包放到服务器上起crontab任务定时执行jar包,部分写在自己的java工程里面。
数据同步
根据binlog信息,进行关系型数据库之间的数据同步。
数据产出
基本都是报表的方式,开发之间会有少量表或者接口的形式。
环境
基本不区分测试和线上环境(跟数据产出一致性要求不高有一定关系)。
问题
太多了,比如:
- 指标口径不一致,排查口径和改错成