大数据经过了几年的高速发展期,在各行业领域都已有了良好的发展,无论是在政府应用、医疗领域等较大的方面,还是和广大群众日常生活相关的应用,大数据都发挥了极为出色的作用。大数据现在在应用中,主要分为了两个阶段,一个是大数据数据本身的收集处理,另一个是后续对于大数据的应用处理。
当下政府、企业等对于数据收集的过程已经相当的熟练,数据收集的技术已经非常成熟。但是一个值得深思的问题在于,数据收集的过程,绝大部分数据都是毫无意义的数据,甚至是有害的数据。数据质量的问题一直以来都是大数据自身一个需要处理的问题。而大数据质量问题出现的原因也是各方面因素导致,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。大致原因分为两大类:数据的业务因素和数据的业务因素。
一、数据质量的技术因素。
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。
在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,也会导致的数据采集失败