数仓开发流程和数据校验标准

一、数仓开发

a.流程:

需求提出-需求对接/确认(业务诉求及拆解)-需求评估(明确数据抓手及指标口径)-需求开发-数据校验-需求交付-结束

b.需求交付wiki

  • 需求名称
  • 需求对接
  • 需求背景
  • 业务诉求
  • 诉求拆解一
  • 诉求拆解二
  • 现有抓手
  • 指标口径说明
  • 实现逻辑说明
  • 数据校验结果
  • 后续跟进

c.遵守规范

  • 数据模型,指标类型
    • 原子指标:业务过程 + 度量(对业务过程的衡量)
    • 复合指标:业务活动(业务过程的组合)+ 度量(多个原子指标的四则运算)
    • 派生指标:业务限定 + 统计周期 + 统计粒度 + 原子/复合指标 在构建指标过程中
  • 表命名规范:
    • 数仓中分层规范
      • DIM层:dim_数据域缩写_维度定义
      • ODS层: 表名:ods_业务名_源系统库名_源表名_增量全量标记
      • DWD层:dwd_数据域_业务过程_增量全量标识
      • DWS层:dws_数据域_子主题域_统计粒度(缩写)_业务描述_统计周期范围(缩写)
      • ADS层:ads_数据域(优先)/自定义分类_统计粒度(缩写)_业务描述
    • 增量全量标识一般由2个字母组成
      • 第一个字母表示分区的更新频率,d每天更新、m每月更新、w没周更新
      • 第二个字母表示增量或全量标识:i:增量;a全量 例如:di代表每日增量更新,da代表每日全量

二、数据校验

补充说明:

a.后续可以通过写一些自动化校验的脚本来提高数据校验的效率

b.数据校验结果需要落到需求交付的wiki里

三、数仓评估方案

a.应用上-底层表使用率(覆盖率):分析师和业务方使用底层数据的占比情况,数仓的APP和DM层应用表是对业务结果的提炼,所以这个指标越小越好。

b.执行上-JOB运行趋势:延迟率,失败率,资源消耗数,执行平均时长,资源等待时长,SLA满足率(分常规队列和核心队列)

c.质量上-故障数:由应用数据引起的故障(核心任务的延迟、失败等)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值