阿里如何保障数据质量的?

如何评估数据质量的好坏,业界有不同的标准,阿里主要从4个方面进行评估:完整性、准确性、一致性、及时性;

 

1. 完整性

 

数据完整性是数据最基础的保障;

 

完整性:指数据的记录和信息是否完整,是否存在缺失的情况;

 

数据缺失:主要包括记录的缺失和记录中某个字段信息的缺失;

 

记录的丢失:如,交易中每天只发订单数都在 100 万笔左右,如果某天支付订单突然下降到 1 万笔,很可能是记录丢失了;

记录中字段的丢失:如,订单的商品 ID、卖家 ID 都是必然存在的,这些字段的空值个数肯定是 0,一旦大于 0 就违背了完整性约束;

 

2. 准确性

 

准确性:指数据汇总记录的信息和数据是否准确,是否存在异常或者错误的信息;

 

准确:数据表中记录的信息与业务过程中真实发生的事实要一致;如何判断是否准确:卡点监控 —— 制定相应规则,根据根校验数据,符合规则的数据则认为是准确的;

如,一笔订单如果出现确认收货金额为负值,或者下单时间在公司成立之前,或者订单没有买家信息等,这些必然是有问题的;

 

3. 一致性

 

一致性:一般体现在跨度很大的数据仓库体系中,如阿里的数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性;

 

一致:也就是指多个业务数据仓库间的公共数据,必须在各个数据仓库中保持一致;

 

如,用户 ID,从在线业务库加工到数据仓库,再到各个消费节点,必须都是同一种类型,长度也需要保持一致;

 

所以,在阿里建设数据仓库时,才有了公共层的加工,以确保数据的一致性;

 

4. 及时性

 

及时性:指数据要能及时产出;

 

主要体现在数据应用上,要及时产出给到需求方;

 

一般决策支持分析师希望当天就能看到前一天的数据,而不是等三五天才能看到某一个数据分析结果;否则就已失去了数据及时性的价值;

 

如,阿里 “双 11” 的交易大屏数据,就要做到秒级;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Build前沿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值