大数据
大数据的定义如下:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
经典案例:啤酒与尿布、谷歌与流感等。
大数据具有以下的特征,即4V+1C:
1、数据量大(Volume):存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。下面是存储单位的换算公式:
1EB=1024PB=260字节
1PB=1024TB=250字节
1TB=1024GB=240字节
1GB=1024MB=230字节
1MB=1024KB=220字节
1KB=1024B=210字节
2、多样(Variety):数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。
3、快速(Velocity):数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
4、价值密度低(Value):需要对大量的数据进行处理,挖掘其潜在的价值。大数据明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。
5、复杂度(Complexity):对数据的处理和分析的难度。
云计算
1.什么是云计算?
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
“云”实质上就是一个网络,狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的