大数据-数据质量

供应侧: 重点关注的数据质量维度

有效性

数据有效性用于度量数据是否符合既定的条件,不符合条件的视为无效数据,例如:在统计当前在职的职工数时,数据集中的已离职人员应当被提出出去

完整性

数据完整性体现在三个方面,
第一是元数据的完整性,例如: 唯一性约束完整性,参照完整性等,DLBM不能重复
第二是数据条目完整性,例如: 数据记录丢失或不可用会印象数据的完整性
第三是数据属性完整性,例如: 数据属性空置情况等

准确性

数据的准确性也叫数据可靠性,狭义上的数据准确性是用于分析,识别和度量哪些是不准确的或无效的数据的. GIS空间范围过滤,四至过滤

唯一性

数据惟一性是用户识别和度量重复数据,冗余数据,重读数据是导致业务无法协同,流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据质量问题.

一致性

数据一致性主要体现在两个方面,
第一是多源数据的数据模型不一致,例如:命名不一致,数据结构不一致,约束规则不一致。
第二是数据实体不一致,例如: 数据编码不一致,命名及含义不一致,分类层次不一致,生命周期不一致
相同的数据有多个副本的情况下的数据不一致,数据内容冲突等问题

需求侧: 超越准确性和数据质量维度

可访问性

对数据用户来讲,最核心的需求是当他们需要用数据的时候,这些数据是可以被访问的,他们想知道企业有哪些数据,存放在哪里,以及如何访问到这些数据,我们看到很多数据平台提供的统一数据资源目录功能就是解决这个问题

及时性

数据的价值在于能够被使用,如果不能及时使用,颗访问的数据就没有价值,及时性定义了数据在需要时是否可用,过期的数据带来的结果可能是误导或误判,保证数据的及时性在一个成都上是保证业务创新性和前瞻性的基础,与实时性相比,及时性强调在需要时间内准时送达,它可以是实时的,也可以是定时的,但一定是准时的,发生在你需要的时候

相关性

当数据的可访问性和及时性得到满足,用户很大成都都会将关注度放到相关性上来,数据的相关性是指数据之间,或数据与用户之间的某种关联关系,例如:函数关系,相关系数,主外键关系,索引关系等,我们在数据治理过程中经常说的相关性问题,就是指数据间或数据与用户间的关联关系缺失或错误,这可能会导致用户将大量的经理放在了不相关的数据上,或者引发出的数据准确性问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值