在数据时代,数据呈现出爆发式增长,数据中蕴藏的价值也逐渐被人挖据出现,大数据和人工智能等技术蓬勃发展,促进了以数据为驱动的新型发展模式。数据是数据时代中重要的基石,基石的质量影响着上层建筑的质量。
数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,依据视情况中的数据量、处理速度、处理复杂等情况,制定相应的数据质量处理方案。
(1)完整性 :完整性用于度量哪些数据丢失了或者哪些数据不可用。
(3)一致性 :一致性用于度量哪些数据的值在信息含义上是冲突的。
(4)准确性 :准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。
(5)唯一性 :唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
(6)关联性 :关联性用于度量哪些关联的数据缺失或者未建立索引。
设计数据处理方案以前,先行需要了解数据质量问题产生的原因,信息化技术只能解决部分数据质量问题,另外需要配合适当的管理性措施,保障数据质量。
从数据生命周期来看,从数据采集、数据模型设计、数据存储、数据传输和原有系统定位等各个方面,都是数据质量可能性的故障点。
从业务层面看对于数据要求,可能会因为业务要求不清晰、要求变更、录入不规范、人为造价等都可能会引起数据质量问题。
因为管理层缺乏数据管理意识、缺乏数据规划、不重视数据、不重视数据质量等,都会导致数据质量问题。
市面上针对数据质量的产品有很多,尤其是互联网公司。下面是一些一二线互联网公司的数据质量监控平台。
(一)Data Quality Center(DQC阿里巴巴数据质量监控平台)
(二)Apache Griffin(Ebay开源数据质量监控平台)
1.德晓,DataMan-美团旅行数据质量监管平台实践,https://tech.meituan.com/2018/03/21/mtdp-dataman.html