【大数据之路】数据管理篇 《四》数据质量 【搬运小结】

本文讲述了大数据数据质量管理的重要原则,包括完整性、准确性、一致性和及时性。介绍了数据质量方法,包括消费场景知晓、数据加工环节卡点校验、风险点监控和质量衡量。重点关注数据资产等级的定义和应用,以及在线和离线系统的数据质量监控措施。
摘要由CSDN通过智能技术生成

【大数据之路】数据管理篇 《三》存储和成本管理 【搬运小结】

1 数据质量保障原则

1 .完整性

完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都造成统计结果不准确,所以说完整性是数据质量最基础的保障。

2 .准确性

准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。比如一笔订单如果出现确认收货金额为负值,或者下单时间在公司成立之前,或者订单没有买家信息 ,这些必然都是有问题的。

3 .一致性

一致性一般体现在跨度很大的数据仓库体系中,比如阿里巴巴数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性。例如用户 ID ,从在线业务库加工到数据仓库,再到各个消费节点,必须都是同一种类型,长度也需要保持一致。所以,在建设阿里巴据仓库时,才有了公共层的加工,以确保数据的一致性。

4 .及时性

在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值。一般决策支持分析师都希望当天就能够看到前一天的数据,而不是等三五天才能看到某一个数据分析结果;否则就已经失去了数据及时性的价值,分析工作变得毫无意义。现在对时间要求更高了,越来越多的应用都希望数据是小时级别或者实时级别的。

2 数据质量方法概述

1 .消费场景知晓

消费场景知晓部分主要通过数据资产等级和基于元数据的应用链路

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值