Ubuntu12.04+hadoop1.0.2+spark1.0.2伪分布式安装总结
由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。
软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.2
1 Hadoop1.0.2伪分布式的安装请参见安装文档
2 Scala安装
1) 下载Scala,本文以Scala-2.9.3为例
2) 下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf scala-2.9.3.tgz
3) 配置环境变量,在/etc/profile增加以下代码
如:export SCALA_HOME=/usr/local/scala-2.9.3
export PATH=$ SCALA_HOME/bin:$PATH
4)使profile文件更新生效
如:source /etc/profile
5)验证安装
如: scala –version
能够正常显示版本说明则安装成功。
3 Spark安装
spark版本:spark-1.0.2-bin-hadoop1 下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本:
For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
For CDH4: find an Apache mirror or direct file download
For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop1.0.的,所以下载的是for hadoop1。(Hadoop2同理,只需要换成Spark的Hadoop2版本即可)
1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)
2)下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf spark-1.0.2-bin-hadoop1.tgz
3) 将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop
4)配置环境变量,在/etc/profile增加以下代码
如:export SPARK_HOME=/usr/local/spark
export PATH=$ SPARK_HOME/bin:$PATH
source/etc/profile使profile文件更新生效。
5)配置conf/spark-env.sh文件
如:
6)配置Master和Slaves文件,编辑/conf/Master、Slaves
如:localhost(Master)
Localhost(Slave1、Slave2….)
7)Spark启动与关闭
如:sbin/start-all.sh
Sbin/stop-all.sh
通过jps查看启动是否成功:
8)Hadoop启动与关闭
如:bin/start-all.sh
bin/stop-all.sh
9)检测是否安装成功
至此,在Linux上安装与配置Spark伪分布式告一段落。
可以通过http://localhost:8080/查看spark集群状况。
参考文献
1http://blog.csdn.net/gaoyanjie55/article/details/34420933
2http://blog.csdn.net/freedomboy319/article/details/43953731
3http://blog.csdn.net/u012480384/article/details/40988181
4http://blog.csdn.net/anycom/article/details/38943837
5http://blog.csdn.net/sunflower_cao/article/details/26458189