考虑到hadoop,spark框架的稳定性,这里使用spark1.0.2
Step-by-step guide
0.安装scala
spark框架使用scala开发
- 下载scala
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ tar zxvf scala-2.10.4.tgz
$ sudo mv scala-2.10.4 /opt - 配置环境变量
$ sudo vim /etc/profile
#添加以下信息并将其加入PATH中去
SCALA_HOME=/opt/scala-2.10.4 - 测试
$ scala -version
- 下载spark
$ wget http://archive.apache.org/dist/spark/spark-1.0.2/spark-1.0.2-bin-hadoop2.tgz
$ tar zxvf spark-1.0.2-bin-hadoop2.tgz
$ sudo mv spark-1.0.2-bin-hadoop2 /opt/ - 配置环境变量
配置 SPARK_HOME 环境变量,并将 $SPARK_HOME/bin放到PATH环境变量中去 - 修改conf文件夹下的spark-env.sh
$ sudo vim $SPARK_HOME/conf
#添加以下信息
export SCALA_HOME=/opt/scala-2.10.4
export JAVA_HOME=/opt/jdk1.7.0_17
export SPARK_MASTER_IP=127.0.0.1
export SPARK_WORKER_MEMORY=1G# 以自己机器中SCALA_HOME和JAVA_HOME为准
- conf/slaves;
配置slave节点, - 在slave节点上配置相同spark环境
- 启动spark
$ cd $SPARK_HOME
$ sbin/start-all.sh - 测试
<1> 查看http://localhost:8080/
<2> 运行example中wordconut 例子