数据质量

在数据时代,数据呈现出爆发式增长,数据中蕴藏的价值也逐渐被人挖据出现,大数据和人工智能等技术蓬勃发展,促进了以数据为驱动的新型发展模式。数据是数据时代中重要的基石,基石的质量影响着上层建筑的质量。

数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,依据视情况中的数据量、处理速度、处理复杂等情况,制定相应的数据质量处理方案。

一、数据质量维度

一般数据质量包含以下6个维度:

(1)完整性 :完整性用于度量哪些数据丢失了或者哪些数据不可用。

(2)规范性 :规范性用于度量哪些数据未按统一格式存储。

(3)一致性 :一致性用于度量哪些数据的值在信息含义上是冲突的。

(4)准确性 :准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。

(5)唯一性 :唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。

(6)关联性 :关联性用于度量哪些关联的数据缺失或者未建立索引。

二、数据质量产生的原因

设计数据处理方案以前,先行需要了解数据质量问题产生的原因,信息化技术只能解决部分数据质量问题,另外需要配合适当的管理性措施,保障数据质量。

数据质量产生的原因,可以概括如下几个方面

(一)技术

从数据生命周期来看,从数据采集、数据模型设计、数据存储、数据传输和原有系统定位等各个方面,都是数据质量可能性的故障点。

(二)业务

从业务层面看对于数据要求,可能会因为业务要求不清晰、要求变更、录入不规范、人为造价等都可能会引起数据质量问题。

(三)管理

因为管理层缺乏数据管理意识、缺乏数据规划、不重视数据、不重视数据质量等,都会导致数据质量问题。

三、数据质量信息化产品

市面上针对数据质量的产品有很多,尤其是互联网公司。下面是一些一二线互联网公司的数据质量监控平台。

(一)Data Quality Center(DQC阿里巴巴数据质量监控平台)

(二)Apache Griffin(Ebay开源数据质量监控平台)

(三)DataMan(美团点评数据质量监控平台)

(四)BDP(京东大数据质量监控平台)

个人比较推荐美团的数据质量监控平台作为参考方案。

四、数据质量

数据质量建议采用传统管理的PDCA理念,具体如下:

五、美团

下面是美团的整体流程:

下面是美团的系统架构

uploading.4e448015.gif转存失败重新上传取消

下面美团数据质量体系的思维导图:

uploading.4e448015.gif转存失败重新上传取消

在细节方面,美团还设计几个专业流程:

(一)管理流程

 

(二)任务等级

(三)监管对象

引用:

1.德晓,DataMan-美团旅行数据质量监管平台实践,https://tech.meituan.com/2018/03/21/mtdp-dataman.html

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值