大数据的数据质量

最新推荐文章于 2022-11-07 16:25:20 发布

河马了了

最新推荐文章于 2022-11-07 16:25:20 发布

阅读量9.3k

点赞数 1

分类专栏：数据质量文章标签：大数据数据质量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liujinz72213/article/details/8573436

版权

大数据时代，数据质量成为挖掘价值的关键。由于大数据的3V特性（大量化、多种类、高采集速度），传统数据质量算法面临挑战。文章探讨了大数据数据质量的管理问题，提出将数据质量管理放在应用级，通过动态数据质量系统对分析过程中的数据子集进行清洗，以应对元数据弱化和使用方式不确定性。这是一种现实可行的解决方案。

摘要由CSDN通过智能技术生成

最近一段时间，大数据的话题真是火热，基本上到了不谈大数据就不能称自己是IT人士的程度。

也有一些人开始谈论大数据的数据质量，认为在大数据时代，对数据质量缺乏管理，就无法挖掘大数据的价值。但到目前为止，我还没有看到有人提到大数据的数据质量有什么特点，其处理方式与传统数据有什么不同。我试着从我的理解来对这两个问题做个解释，算是抛砖引玉吧，欢迎大家多拍砖。

我们都知道大数据的特点是3V，即大量化（Volume）、多种类（Variety）和高采集速度（Velocity）。大量化意味着传统的数据质量算法，除非有非常大的性能提升，是难以用在大数据环境下的，因为扫描一次的时间可能都是无法接受的；多种类更增加了这种难度，因为传统的数据质量算法基本上是基于关系数据的，对于象XML、文档、图数据等等类型，目前还没有太好的数据质量算法；高采集速度更是一个严峻的挑战，因为采集过程本来就是数据质量问题的主要来源，采集速度快，又不能及时进行数据质量处理，会导致数据质量问题的堆积，越来越严重。

同时，数据质量是一个综合性的问题，一般认为其包括三个方面：元数据的质量、数据内容的质量和数据使用方式的质量，而大数据的特点恰恰是元数据的弱化和未来使用方式的不确定性。

综上所述，在大数据本身上实现数据质量管理，至少从目前来看是不太现实的。那么，大数据质量该怎么处理呢?

我认为大数据质量的模型需要做一个变通，就是把其数据质量的管理放在应用级。在我们利用大数据做分析时，我们首先是从大数据中得到一个子集，如现

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄21年

30
原创

3
点赞

19
收藏

10
粉丝

关注

私信

热门文章

分类专栏

Java 3篇
Net 7篇
开源研究 5篇
Linux 3篇
qmail 1篇
数据质量 4篇
python 5篇
OSGi 1篇
wxPython 1篇
StyleTextCtrl 1篇

最新评论

在wxStyledTextCtrl中实现搜索替换
烈风: 能分享一下完整demo代码吗？
XmlIgnore的解释和使用
xmx5166: 将代码自己运行一次得到的结果为：<?xml version="1.0" encoding="utf-8"?> <Group xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema"> <GroupName>.Net</GroupName> </Group> 所以作者最后说的“序列化了Comments,而不包含GroupName.”是错误的，attrs.XmlIgnore = true的时候代表忽略这个字段不进行序列化
使用wxStyledTextCtrl实现代码提示
万能菜道人: 感谢分享！
UrlEncode的字符集问题
河马了了: 今天看来，是我当时比较肤浅，因为url的编码是在不同主机之间传递的，采用当前主机的缺省字符集当然是不对的。采用较为通用的utf-8是自然的选择，也是当前各种系统的通常做法。
大数据的数据质量
dxpeony: 你好，最近大数据的数据质量的特点或参数有被研究吗？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。