大数据及下一代基础设施

什么是大数据?

对于大数据的概念,这里给出的定义是超出现有数据库系统处理能力的数据。由于过快的数据产生速度,以及规模巨大的数据量,这就要求使用合适的系统来处理它们。

大数据的价值主要可以分为两种:数据分析、开发新产品。大数据分析能够揭露消费行为及趋势,如消费者如何受到同龄人的影响。对开发新产品而言,通过组合大量数据所透出的用户行为及群体关系,Facebook能够开发更具个性化的用户体验和独特广告系统。

大数据的主要特征可以用3V来表示,即数据量volume,数据产生速率velocity,数据的多样化variety。

(1)数据量volume:大规模的数据量能够使得数据分析更为有效。例如使用300个因素总能比使用6个因素预测的结果更为准确。大规模的数据量同时对传统的IT基础设施提出了挑战,因为它需要可扩展的存储,以及分布式的查询方法。
(2)数据产生速率velocity:随着互联网和移动互联网的飞速发展,数据量的产生速度也与日俱增。
(3)数据的多样化variery:这样多样性主要集中在互联网上的大量数据都是无结构的,这使得很难用传统的关系型数据库去有效处理。例如,来自社交网络的文本,图像数据,传感器数据等。


实时的数据分析
数据分析技术的发展经历了三个主要阶段,第一个阶段是操作型数据库,与此对应的是联机事务处理OLTP。其基本特征是顾客的原始数据传送到计算中心进行处理,并在很短的时间内给出处理结果。这个阶段的数据分析主要依靠人工来对历史数据进行分析。
第二个阶段是数据仓库技术的发展,数据仓库是决策支持系统和联系分析应用数据源的结构化数据环境。与此对应的是联机分析处理OLAP,其针对的是多维信息共享,并能够针对特定问题进行联机数据的访问和分析,并能产生表格或图形化的分析结果。OLAP可以用于分析当前数据从而改进商业业务质量。
第三个阶段是流计算(stream computing)的发展,即对实时信息进行分析处理。流计算要求能够在流数据实时变化的过程中实时的对其进行分析,捕捉到可能对用户有用的信息。与此对应的是实时分析处理OLAP,从而改进业务响应。而这也正是企业所最需要的。



当前关系型数据库存在的问题
(1)不能够处理非表格化的数据
(2)不能在硬件群中很好的发挥并行处理能力
(3)受网络延迟,硬盘寻道时间等影响
(4)可扩展性不好
(5)难以处理非关系型的数据源
(6)难以处理日益剧增的PB级别的数据


大数据,数据库的新面孔
大数据处理,从数据到信息再到知识。能够独立于体系结构,规避传统关系型数据库的影响,面向key值(数据以<Key,Value>的形式存储)查询,并且拥有更高的扩展能力及在线负载均衡能力。
大数据分析,要求能够对社交网络中用户互动产生的数据,传感器数据,及实时流数据等非结构化的数据进行分析处理,这也将成为下一代IT的前沿领域。



Hadoop

Hadoop是Apache组织的一个顶级项目,其也成为大数据领域的核心推动力量。Hadoop能够将廉价的硬件组成集群提供服务器级别的分布式处理能力。


Hadoop的核心:MapReduce
MapReduce是Google为了计算web搜索索引而开发的,而MapReduce也成为了当今绝大部分大数据处理的推动力量。除了Hadoop,你还能再MPP及NoSQL数据库MongoDB中发现MapReduce。
通过MapReduce能够将对一个数据集的查询拆分成许多小份,然后在多个节点上并行处理它们。MapReduce的过程可以概括为:Input > Map > Shuffle/Sort > Reduce > Output。


Hadoop则是MapReduce的一个开源实现——廉价的设备+Linux+Hadoop可以用很低的成本架设大规模计算集群。Hadoop是这一个开源项目总的生态系统的名称,其还包括很多其他的技术。


MapReduce主要进行分布式计算的工作,其背后依靠于数据存取技术,Hadoop提供了HDFS——Hadoop Distributed File System。HDFS和MapReduce都是高可靠的,即使Hadoop集群中出现了服务器错误,计算过程依然会继续。HDFS允许同一份数据分发到多个节点进行计算。并且,HDFS对所存储的数据没有限制,数据可以使无结构化的数据。


展开阅读全文

没有更多推荐了,返回首页