最近本人对各种分布式计算平台研究的比较火热,上周的时间简单了了解了Storm的用法,今天马不停蹄的开始了新的学习。同样是非常流行的分布式平台,Spark,跟Hadoop属于同类型的。Spark和Storm一样,作为最近才刚刚开源出来的一个项目,学习的资料相当少,大家都还在学习阶段,所以,我目前的学习的情况也只是限于比较粗糙的学习。
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算,(Spark也是以此出名的),多迭代批量处理,即席查询,流处理,和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。
学习Spark的第一步当然是安装Spark,在安装Spark的之前,必须从github上获取一个Spark的源码版本。Spark提供了基本源码包,和已经编译好的压缩包,如果笔友想要更深入的学习Spark,推荐自己下载源码进行编译。Spark将HDFS作为数据存储的介质,所以说,Spark为了和HDFS有交互,在编译源代码的时候,2者的代码版本需要一致。接下来就是部署Spark,部署Spark由很多方式:
(1).借助EC2上运行Spark,可能需要Amazon的账号