一 下载
从官网下载对应版本的spark,博主下载的是spark-1.5.1-bin-hadoop2.4.tgz。
二 安装
1、安装之前我们用WinSCP工具,将刚下载的tgz文件上传到Linux的/usr/local目录下。
2、解压tgz文件。
三 配置环境变量
四 修改spark-env.sh文件
进入spark/conf目录,然后我们用cp命令将spark-env.sh.template复制为spark-env.sh。然后vi编辑spark-env.sh。
五 yarn-client模式提交spark作业
至此,spark客户端安装成功。我们用yarn-client模式提交spark自带的一个示例。在/usr/local下创建spark-study目录,并创建一个yarn-client-example.sh文件。
# yarn-client-example.sh文件内容
/usr/local/spark/bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \
--master yarn-client \
--num-executors 1 \
--driver-memory 10m \
--executor-memory 10m \
--executor-cores 1 \
/usr/local/spark/lib/spark-examples-1.5.1-hadoop2.4.0.jar \
执行yarn-client-example.sh脚本文件,但在执行之前我们可能需要使用chmod命令修改下权限。
# 修改权限
chmod 777 yarn-client-example.sh
# 在/usr/local/spark-study下执行
./yarn-client-example.sh
博主在这里执行失败,抛出一个内存溢出的错误,但是这样的一个示例是没有任何问题的,小伙伴们可以在自己机器上尝试一下哦。
六 yarn-cluster模式提交spark作业
该样例同yarn-client模式,我们先创建yarn-cluster-example.sh,然后使用chmod修改权限,然后执行即可。只是把执行文件中的master修改为yarn-cluster。具体如下:
/usr/local/spark/bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \
--master yarn-cluster \
--num-executors 1 \
--driver-memory 10m \
--executor-memory 10m \
--executor-cores 1 \
/usr/local/spark/lib/spark-examples-1.5.1-hadoop2.4.0.jar \
yarn-cluster模式下提交spark作业,我们可以看到如下信息。