PS:这种大型的都系,笔者总是感觉是劳民伤财的事情,特别折腾人。
一、笔者环境说明
1.ubuntu14.04LTS
2.scala2.11.4
3.之前已经安装的hadoop2.6.0
4.protpbuf 2.5(因为安装hadoop2.6.0必须使用这个)
5.其他安装hadoop2.6.0的前置包N个
6.hadoop的安装请参考笔者的另一篇文章
二、spark安装前说明
1.笔者使用的spark版本,是截至2015-02-09的最新版本,spark1.2
2.如果读者不想使用hadoop,可忽略hadoop的安装。这在后续文章说明,而笔者因为之前安装了hadoop,所以就顺带用上了,但也够折腾了。
三、spark的部署说明
在安装spark和学习前,请必读此章。
spark有众多模式,例如 local、standalone、on YARN、on MESOS。
此处笔者为各位科普下部分,但不全。
3.1、on YARN:就是笔者此次的编译安装
其实这个模式,就是spark使用了hadoop的YARN(资源管理器)和HDFS(分布式文件系统)而已。
而spark是可以从本地读取文件生成RDD的,或者从其他的RDD衍生过来。所以并非必须。
3.2、on MESOS:
这个模式,其实就是使用MESOS(资源管理器)
3.3、standalone
这个模式,就是spark使用自己的资源管理器来运维整个部署环境。可以在此模式下建立集群。(YARN、MESOS当然都有集群)
3.4、local
这个模式一般就是测试开发使用,可以使用多线程模拟伪分布式。但一开始就别吸收那么多知识了。
四、几乎上手即用的安装方式
PS:此模式就是用local或者standalone,非YARN、MESOS
4.1、首先安装scala(2.10、2.11都可以)
笔者使用的是scala2.11.4。在官网上spark1.2对应使用的是scala2.10.x版本。但也可兼容scala2.11.x。
在此不详述,请各位参考网上,很简单。
4.2、从官网下载spark1.2
在此读者可能会疑惑官网上为什么不是下载源码就是 with hadoop XX版本。
笔者告诉读者,其实下载 with hadoop的二进制包即可,最好使用最新的,因为约新支持的scala就越新。
这里说明下为什么会有那么多hadoop版本,因为hadoop中不同版本的HDFS不同版本间是非兼容的,所以需要区分hadoop版本来编译或者安装。
下载后,就是配置SCALA_HOME这些简单的东西了。(JAVA_HOME这些不用笔者提示了吧。)
然后进入$SCALA_HOME/bin/spark-shell,运行这个就可以出现大名鼎鼎spark-shell命令提示符了,然后各位就可以开始在此上进行学习或简单开发测试了。
至此,完毕!
五、ON YARN安装编译
PS:这位笔者使用的模式
5.1、确定好java、hadoop、scala、maven等软件安装并且配置好环境变量。
5.2、到官网,或者GITHUB下载好spark1.2的源代码,并解压。
5.3、进入解压的spark1.2目录,执行命令:(笔者回家不全,并有后续说明)
5.4、进入spark安装目录的bin,同样执行spark-shell看看是否可以执行,如果可以表明安装成功。