3.1 大数据定义

本文概述了大数据的四个关键特征:Volume(大量)、Velocity(高速)、Variety(多样)和Veracity(真实性),探讨了海量数据的来源、处理速度、数据类型复杂性和确保数据质量的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2012年,Gartner将它的定义修改为:大数据是大容量(Volume)、高流速(Velocity)、多样化(Variety)的信息资产,它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。
有些组织在3V的基础上增加了一个新的V-“Veracity”,即真实性来描述大数据。
用中文简单描述就是大、快、多、真

1. Volume——生成和存储的数据量大
例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。
2. Velocity——数据产生和处理速度快
例如,2015年双十一当天,支付宝的峰值交易数为每秒8.59万笔。
3. Variety——数据源和数据种类多样
现在要处理的数据源包括各种各样的关系数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频流等
4. Veracity——数据的真实性和高质量
诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些有偏差的、伪造的、异常的部分,防止脏数据损害到数据分析结果的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值