下载spark的网址:http://spark.apache.org/downloads.html
根据各自hadoop版本,选择相迎的spark版本即可。
本文是hadoop集群安装好的前提下,进行安装spark的安装。
安装spark之前,先安装scala,具体要求什么样的scala版本,可以将下载的spark解压,在根目录下有个README.md文件。里面有写明你下载的spark版本需要哪个scala版本的支持。这里下载的是0.9版本的spark,对应的scala是2.10.x即可。
scala的下载地址(各个版本):http://www.scala-lang.org/download/all.html
解压,设置环境变量。我所有的环境变量都是在~/.bashrc文件中设置的(下面会贴出我设置的所有的环境变量的图,scala就在其中)。
测试scala有没有安装成功,使用命令行:scala -h 即可。
安装好scala之后,就是安装spark了。
下载制定的spark版本后,第一步先是:build spark。具体命令上在上面的图中就有:./sbt/sbt assembly,这个编译需要花一些时间。
编译成功以后,修改配置,主要是./conf下面的slaves和spark-env.sh文件。
修改配置,和运行spark集群可参考的是网址:http://blog.csdn.net/hxpjava1/article/details/19177913
如果你不编译就启动集群,就会报这样子的错误:
提示先build spark,在启动集群
最后贴一张环境变量的图,手打一边,加深影响