2012年,Gartner将它的定义修改为:大数据是大容量(Volume)、高流速(Velocity)、多样化(Variety)的信息资产,它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。
有些组织在3V的基础上增加了一个新的V-“Veracity”,即真实性来描述大数据。
用中文简单描述就是大、快、多、真。
1. Volume——生成和存储的数据量大
例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。
2. Velocity——数据产生和处理速度快
例如,2015年双十一当天,支付宝的峰值交易数为每秒8.59万笔。
3. Variety——数据源和数据种类多样
现在要处理的数据源包括各种各样的关系数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频流等
4. Veracity——数据的真实性和高质量
诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些有偏差的、伪造的、异常的部分,防止脏数据损害到数据分析结果的准确性。