【数据仓库】大数据定义

      2012年Gartner公司将大数据定义为3V,即:大容量(Volume)、高流速(Velocity)、多样化(Variety),后来人们在3V基础上增加新的V-"Veracity",即真实性。现在人们普遍认可的大数据是具有4V,即:Volume、Velocity、Variety、Veracity,也就是大、快、多、真。

1. Volume(生成和存储的数据量大)

随着技术的发展,人们收集信息的能力越来越强,随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达到上百TB,总的数据量已经达到EP级。

2. Velocity(数据产生或处理速度快)

指的是销售、交易、计量等人们关心的事件发生的频率。例如,2015年双十一当天,支付宝的峰值交易数为每秒8.59万笔。

3. Variety(数据源和数据种类多样)

现在要处理的数据源包括各种各样的关系型数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频流等,而且每天都会产生新的数据格式和数据源。

4. Veracity(数据的真实性和高质量)

诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些偏差的、伪造的、异常的部分,防止脏数据损害到数据分析结果的准确性。

------《Hadoop构建数据仓库实践》

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值