2014-12-04 10:20 记者:林师授 整理:张伟
第二代大数据技术Spark
首先先来抛开这两种技术,谈一下大数据。大数据是数据的一种,数据处理到达一定复杂程度,或者数据规模到达一定程度的时候便会称之为大数据。在采访中王家林讲到:“其实关于大数据的处理本身包含两部分,一部分是数据的存储,另外一部分就是数据计算本身。目前而言谈大数据大家最常知道的技术是Hadoop,做得比较资深会再使用Spark。那么这两项技术到底各自有什么样的历史地位或者说各自有什么价值呢?”
Hadoop准确地说是称为第一代大数据技术,而Spark可以把它称之为第二代大数据技术。Hadoop开启了人们大规模使用大数据的这样一个时代,但由于Hadoop本身架构的一些自己已有的机制,例如说它每次操作都要经过读写磁盘,这极大地限制了它的速度和计算模型。
而Spark由于具有了Hadoop这样第一代技术的参考和借鉴,以及它自己充满了学术基因。了解Spark的朋友都知道,它是来自于APM实验室的,它一开始就专注于数据的计算,而且是专注于任意规模、任意类型的数据计算,用它自己的口号就是一站式一体化多元化的大数据处理。所以说Spark的时候,主要是聚焦在大数据处理,而这种处理主要有三方面。