影响大数据的数据质量因素

  大数据经过了几年的高速发展期,在各行业领域都已有了良好的发展,无论是在政府应用、医疗领域等较大的方面,还是和广大群众日常生活相关的应用,大数据都发挥了极为出色的作用。大数据现在在应用中,主要分为了两个阶段,一个是大数据数据本身的收集处理,另一个是后续对于大数据的应用处理。  当下政府、企业等对于数据收集的过程已经相当的熟练,数据收集的技术已经非常成熟。但是一个值得深思的问题在于,数据收集的过程,绝大部分数据都是毫无意义的数据,甚至是有害的数据。数据质量的问题一直以来都是大数据自身一个需要处理的.
摘要由CSDN通过智能技术生成

  大数据经过了几年的高速发展期,在各行业领域都已有了良好的发展,无论是在政府应用、医疗领域等较大的方面,还是和广大群众日常生活相关的应用,大数据都发挥了极为出色的作用。大数据现在在应用中,主要分为了两个阶段,一个是大数据数据本身的收集处理,另一个是后续对于大数据的应用处理。

 

  当下政府、企业等对于数据收集的过程已经相当的熟练,数据收集的技术已经非常成熟。但是一个值得深思的问题在于,数据收集的过程,绝大部分数据都是毫无意义的数据,甚至是有害的数据。数据质量的问题一直以来都是大数据自身一个需要处理的问题。而大数据质量问题出现的原因也是各方面因素导致,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。大致原因分为两大类:数据的业务因素和数据的业务因素。

 

  一、数据质量的技术因素。

 

  数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。

 

  由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。

 

  在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,也会导致的数据采集失败

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值