大数据的数据质量

大数据时代,数据质量成为挖掘价值的关键。由于大数据的3V特性(大量化、多种类、高采集速度),传统数据质量算法面临挑战。文章探讨了大数据数据质量的管理问题,提出将数据质量管理放在应用级,通过动态数据质量系统对分析过程中的数据子集进行清洗,以应对元数据弱化和使用方式不确定性。这是一种现实可行的解决方案。
摘要由CSDN通过智能技术生成

       最近一段时间,大数据的话题真是火热,基本上到了不谈大数据就不能称自己是IT人士的程度。

       也有一些人开始谈论大数据的数据质量,认为在大数据时代,对数据质量缺乏管理,就无法挖掘大数据的价值。但到目前为止,我还没有看到有人提到大数据的数据质量有什么特点,其处理方式与传统数据有什么不同。我试着从我的理解来对这两个问题做个解释,算是抛砖引玉吧,欢迎大家多拍砖。

       我们都知道大数据的特点是3V,即大量化(Volume)、多种类(Variety)和高采集速度(Velocity)。大量化意味着传统的数据质量算法,除非有非常大的性能提升,是难以用在大数据环境下的,因为扫描一次的时间可能都是无法接受的;多种类更增加了这种难度,因为传统的数据质量算法基本上是基于关系数据的,对于象XML、文档、图数据等等类型,目前还没有太好的数据质量算法;高采集速度更是一个严峻的挑战,因为采集过程本来就是数据质量问题的主要来源,采集速度快,又不能及时进行数据质量处理,会导致数据质量问题的堆积,越来越严重。

       同时,数据质量是一个综合性的问题,一般认为其包括三个方面:元数据的质量、数据内容的质量和数据使用方式的质量,而大数据的特点恰恰是元数据的弱化和未来使用方式的不确定性。

       综上所述,在大数据本身上实现数据质量管理,至少从目前来看是不太现实的。那么,大数据质量该怎么处理呢?

       我认为大数据质量的模型需要做一个变通,就是把其数据质量的管理放在应用级。在我们利用大数据做分析时,我们首先是从大数据中得到一个子集,如现

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值