数据要素化条件之三:数据质量

数据的质量直接影响其在数据智能中的效用。及时、简洁、有意义且来自多源的数据是宝贵的。数据质量的评估涉及准确性、相关性、完整性等多个维度,并需依据行业需求定制标准。原始和可机读只是前提,满足特定质量要求的数据才能成为有效的生产要素。
摘要由CSDN通过智能技术生成

原始的可机读数据能够用于数据智能,但是具体使用效果如何,则是由这些数据是否具备一定质量要求来决定的。虽然许多机构事实上控制了丰富的数据,但这些数据在带来多样性价值的同时,也带来了数据类型和数据结构的差异性与复杂性,甚至存在准确性差、真实性存疑等质量问题。这就导致了这些数据往往是无法被有效分析以产生有用的信息来支持目标设定、决策、监控或其他处理实践的。因此,随着数据量的巨大增长,数据质量的良莠不齐,甚至可以说更多的数据往往意味着更多棘手的问题。影响数据质量的根本原因源于大数据本身的多源异构性。从不同的异构来源生成大量非结构化数据本身就需要治理才可以使用。这大大地降低了数据智能的应用效率。因此,只有满足一定质量的数据才是真正要素化的数据。

正如优质的食材才可以烹调出美味佳肴一样,作为数据智能的原料,精确地判断或预测,都是建立在正确、完整、真实的数据原料基础之上的,因此数据也必须满足一定的质量要求。计算机科学家维奈·拉奥指出,当数据满足以下条件时,它就变得有价值了:

①及时提供;

②简洁、很好组织在一起及相关性;

③它具有基于经验的意义和背景;

④它是多个数据源的集合。

因此,只有满足这些关于数据质量的要求时,数据就可以减少解决问题和帮助做出正确决策所需的时间、精力和资源,它就是一种有价值的资源,就是可以高效利用的数据生产要素。

数据质量的判断需要具体的评价指标。有研究认为,机读数据集应具备以下六个特征,包括:

①计算机可以自动处理的数据格式以及结构化数据;

②没有实体独家控制且必须按照国际标准加密;

③数据可处理,但是不丢失语义(Semantic Meaning);

④数据格式和类型具有一致性;

⑤遵循规则和命名协定的可变命名;

⑥是通过计算机代码可以查询和处理的数据 。

这应当是对数据质量较为全面的总结。

为了评判数据质量,应当建立衡量数据质量的维度框架,如准确性、相关性、完整性、一致性、及时性和格式统一性等。不过,数据质量是一个相对性的问题,并不存在单一的适用各种情形的数据质量标准,而是需要根据行业或企业需求,发展出不同要求的数据质量标准体系。因此,原始性与可机读性只是数据成为生产要素的前提条件,而数据是否满足一定的质量要求,达到可以使用的程度,则是数据成为生产要素的实质条件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jane9872

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值