如何保证数据产出质量简述

数据质量的评估

数据质量可以从一下几个角度进行评估:

  • 完整性:
    • 完整性是指数据的记录和信息是否完整,是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段信息的缺失,两者都会造成统计结果不准确。
  • 准确性
    • 准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或订单中出现错误的买家信息等,这些数据都是问题数据。确保记录的准确性也是保证数据质量必不可少的一部分。
  • 一致性
    • 一致性通常体现在跨度很大的数据仓库中。 例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性。例如,从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要保持一致。因此,您需要设计数仓的公共层以确保数据的一致性
  • 及时性
    • 保障数据的及时产出才能体现数据的价值。例如,决策分析师通常希望当天就可以看到前一天的数据。若等待时间过长,数据失去了及时性的价值,数据分析工作将失去意义。

数据质量的保障

  • 事前:
    利用完善的流程和机制辅以工具对数据质量进行保障。
  • 事后:
    同时对于重大事故进行复盘,不断通过一个个case完善工具和机制。

数据产出流程&机制

在建设中间层承接需求或到资产产出上调度之间,需要由一套完善的流程和机制来保障数据质量。

  • 中间层建设:

建设前确保理解其中的业务逻辑,必要情况下建议对产品PRD、业务&数据流程图、E-R图、表&重点指标的使用说明、甚至状态机维护一份文档。

  • APP层建设:

开发前:

理解当前资产的开发背景、意义以及目的(方便后续中间层沉淀),以数据视角给出建议,对不合理或者不准确的指标进行剔除或者修正。
确认维度和指标后,理解维度和每个指标的确切口径,与业务方和DS进行拉齐。重点复杂指标,如果DS已经进行过初步试验,建议给出示例SQL。将所有指标落文档,后续按照文档进行产出。

同时对于已有的口径要保证数据一致性。

  1. 各个域的指标口径有各个域进行收口。对现有指标的加工,直接从对于域的中间层取值,而不从底层重新计算。避免底层数据统计逻辑变更导致的数据不一致性。如,商品对GMV进行汇总加工,直接取财务或订单侧的GMV,而不去关注GMV的底层统计逻辑。
  2. 统一维护一份指标字典,对原子指标进行全覆盖,对衍生指标尽可能的覆盖。一个指标对外只有一个相同的名称,保证一个名称对应且只对应一个统计逻辑,进而保证数据的一致性。
<
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值