3.1 大数据定义

2012年,Gartner将它的定义修改为:大数据是大容量(Volume)、高流速(Velocity)、多样化(Variety)的信息资产,它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。
有些组织在3V的基础上增加了一个新的V-“Veracity”,即真实性来描述大数据。
用中文简单描述就是大、快、多、真

1. Volume——生成和存储的数据量大
例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。
2. Velocity——数据产生和处理速度快
例如,2015年双十一当天,支付宝的峰值交易数为每秒8.59万笔。
3. Variety——数据源和数据种类多样
现在要处理的数据源包括各种各样的关系数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频流等
4. Veracity——数据的真实性和高质量
诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些有偏差的、伪造的、异常的部分,防止脏数据损害到数据分析结果的准确性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据相关知识全文共3页,当前为第1页。大数据相关知识全文共3页,当前为第1页。大数据相关知识 大数据相关知识全文共3页,当前为第1页。 大数据相关知识全文共3页,当前为第1页。 第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。 1.1最早提出大数据时代到来的是麦肯锡:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。 1.2 业界(IBM 最早定义)将大数据的特征归纳为4个"V"(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。 第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。 2.1云计算:大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。 2.2分布式处理系统:分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系大数据相关知识全文共3页,当前为第2页。大数据相关知识全文共3页,当前为第2页。统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义大数据相关知识全文共3页,当前为第2页。 大数据相关知识全文共3页,当前为第2页。 2.3存储技术:大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。大数据的采集和感知技术的发展是紧密联系的。 2.4感知技术:以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。 3.第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 3.1互联网大数据:互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。 3.2政府的大数据:近期,奥巴马政府宣布投资2亿美元拉动大数据大数据相关知识全文共3页,当前为第3页。大数据相关知识全文共3页,当前为第3页。相关产业发展,将"大数据战略"上升为国家意志。奥巴马政府将数据定义为"未来的新石油",并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。 大数据相关知识全文共3页,当前为第3页。 大数据相关知识全文共3页,当前为第3页。 3.3企业的大数据::企业的CEO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。 大数据相关知识

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值