一、数仓开发
a.流程:
需求提出-需求对接/确认(业务诉求及拆解)-需求评估(明确数据抓手及指标口径)-需求开发-数据校验-需求交付-结束
b.需求交付wiki
- 需求名称
- 需求对接
- 需求背景
- 业务诉求
- 诉求拆解一
- 诉求拆解二
- 现有抓手
- 指标口径说明
- 实现逻辑说明
- 数据校验结果
- 后续跟进
c.遵守规范
- 数据模型,指标类型
- 原子指标:业务过程 + 度量(对业务过程的衡量)
- 复合指标:业务活动(业务过程的组合)+ 度量(多个原子指标的四则运算)
- 派生指标:业务限定 + 统计周期 + 统计粒度 + 原子/复合指标 在构建指标过程中
- 表命名规范:
- 数仓中分层规范
- DIM层:dim_数据域缩写_维度定义
- ODS层: 表名:ods_业务名_源系统库名_源表名_增量全量标记
- DWD层:dwd_数据域_业务过程_增量全量标识
- DWS层:dws_数据域_子主题域_统计粒度(缩写)_业务描述_统计周期范围(缩写)
- ADS层:ads_数据域(优先)/自定义分类_统计粒度(缩写)_业务描述
- 增量全量标识一般由2个字母组成
- 第一个字母表示分区的更新频率,d每天更新、m每月更新、w没周更新
- 第二个字母表示增量或全量标识:i:增量;a全量 例如:di代表每日增量更新,da代表每日全量
- 数仓中分层规范
二、数据校验
补充说明:
a.后续可以通过写一些自动化校验的脚本来提高数据校验的效率
b.数据校验结果需要落到需求交付的wiki里
三、数仓评估方案
a.应用上-底层表使用率(覆盖率):分析师和业务方使用底层数据的占比情况,数仓的APP和DM层应用表是对业务结果的提炼,所以这个指标越小越好。
b.执行上-JOB运行趋势:延迟率,失败率,资源消耗数,执行平均时长,资源等待时长,SLA满足率(分常规队列和核心队列)
c.质量上-故障数:由应用数据引起的故障(核心任务的延迟、失败等)