如何保证数据指标的正确性?
1.上线前测试:
1.1.表内各指标/维度的验证。
验证需求所需维度在表中完全存在且唯一,很多交叉维度时,很容易漏了某一个或多写。
对于可累加的指标,总维度是其细分维度值的累加,比如当天借款金额 和 当天各产品的借款金额,把各产品的金 额加起来应该等于当天总的借款金额。
对于不可累加的指标,总维度的值应该小于等于细分维度相加的值,比如点击人数,当天的点击人数应该 小于等于 当天各产品的点击人数相加(一个人可以点多个产品,总数会去重)。
呈漏斗关系的指标,比如当天注册和当天首登的人数,前者的数值正常应该比后者多。
1.2.查询上游明细数据表/业务数据表验证。
筛选各个维度,直接查询业务数据库的数据,与报表中结果数据对比。
查询上游明细数据与报表结果数据对比。
1.3.与其他报表或历史参照对比。
与其他报表类似指标对比数据是否一致。
与历史数据对比是否有大幅度的波动或差异。比如历史借款一百万,新统计的只有几万,要么是业务异常,要么就是数据错误。
1.4.业务及合理性验证。
根据业务口径以及经验判断,指标值是否合理。
1.5.交叉验证,和同事互相验证。
2.上线后配置数据质量监控:
表的监控:产出时间,数据总条数,数据波动
字段的监控:空值,重复值,或者不是某些特定值
如果任务产出不在设置的阈值之内 就会以短信/邮件/告警群的方式告警