Spark单机模式搭建步骤。
本文linux系统环境centos6.4,在root权限下安装的spark。
1.环境检查
(1)jdk的检查和安装
java -version
没有安装jdk的朋友请参考:Linux下jdk1.7安装
(2)scala的检查和安装
scala -version
没有安装scala的朋友请参考:Linux下scala安装
(3)Maven的检查和安装
mvn -version
没有安装maven的朋友,请自行安装和以上两个类似。
以上安装完,请自行类似于jdk的安装修改环境变量的配置文件。
注意:如果只是安装spark环境,则只需要JDK和Scala即可,Maven的安装是为了后续源码的编译以及后期本地spark程序编写打包提交运行。
2.下载和配置spark
从spark官网下载spark官网下载地址:http://spark.apache.org/downloads.html
下载好spark-2.1.1-bin-hadoop2.7.tgz然后上传到linux(可以下载其他版本的spark包这个按照个人喜好来定)。
然后解压到指定文件夹:
tar -xzf spark-2.1.1-bin-hadoop2.7.tgz
3.配置spark环境变量
vim /etc/profile
定义spark_home并把路径加到path参数中
SPARK_HOME=/usr/local/soft/spark-2.1.1
PATH=$PATH:$SPARK_HOME/bon:$SPARK_HOME/sbin
然后进入到spark的安装目录conf文件夹下
vim spark-env.sh
加入以下几项:
export SCALA_HOME=/usr/local/java/scala
export JAVA_HOME=/usr/local/java/jdk7
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=1G
以上一定要对应自己的环境路径
4.启动spark
start-master.sh
start-slaves.sh
查看日志文件,如果没有error出现说明启动成功,进入master的web管理页面,默认端口是8080。在游览器里输入:localhost:8080
既可以看到以下的界面:
5.启动spark-shell
spark-shell
16/01/16 15:33:17 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/01/16 15:33:18 INFO spark.SecurityManager: Changing view acls to: spark
16/01/16 15:33:18 INFO spark.SecurityManager: Changing modify acls to: spark
16/01/16 15:33:18 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(spark); users with modify permissions: Set(spark)
16/01/16 15:33:18 INFO spark.HttpServer: Starting HTTP Server
16/01/16 15:33:18 INFO server.Server: jetty-8.y.z-SNAPSHOT
16/01/16 15:33:18 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:42300
16/01/16 15:33:18 INFO util.Utils: Successfully started service 'HTTP class server' on