最近学习spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧
spark开发环境的介绍资料很多,大同小异,我以自己的实际操作过程为准,详细记录下来。
注意: 这里介绍的是开发环境搭建,不是spark集群环境搭建,主要参考其他博客内容,整理后汇总
我的本地机器使用centos6.3, 这里配置spark1.6时,java1.6不能运行,因此升级到java1.8才成功运行
大致上分以下几个步骤(我自己机器的实际操作过程):
1、配置java 1.8
下载jdk1.8.0_91.tgz
解压 tar -zxvf jdk1.8.0_91.tgz
移动到/usr/local/目录下,mv jdk1.8.0_91 /usr/local
修改环境变量 sudo vim /etc/profile,末尾添加以下内容
export JAVA_HOME=/usr/local/jdk1.8.0_91/
export JRE_HOME=/usr/local/jdk1.8.0_91/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${GRADLE_HOME}/bin:${JAVA_HOME}:${PATH}
让配置立即生效 source /etc/profile
终端输入 java -version,显示如下结果配置成功!
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)
2、配置scala 2.10.4
下载 scala-2.10.4.tgz
解压,移动到/usr/local目录下(同1中操作)
修改环境变量,/etc/profile文件末尾添加如下内容
export SCALA_HOME=/usr/local/scala-2.10.4
export PATH=.:$JAVA_HOME/bin:$SCALA_HOME/bin:$PATH
让配置立即生效 source /etc/profile
终端输入scala -version,显示如下结果配置成功!
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
3、配置spark 1.6.1
下载、解压、移动、配置内容同1、2
终端输入spark-shell,显示如下结果配置陈成功!
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.6.1
/_/
scala>
4、 本地python脚本pythonapp.py提交spark集群运行
spark-submit --master spark://host:7077 --name first-pyspark pythonapp.py
即可看到运行结果,至此表明spark基本开发环境配置完成!
说明:我个人理解spark开发环境主要用来提交程序到spark集群,因此本地没有配置hadoop环境
参考资料:
1、http://blog.csdn.net/zhangyuming010/article/details/37570813
2、http://blog.sina.com.cn/s/blog_14c8f97860102wg98.html