Spark程序有四种运行环境,分别如下:
本地模式
1、local => 主要用于开发(IDEA中运行)和开发的测试(spark-shell运行)
集群模式
2、standalone => 将spark应用运行在spark自带的资源管理器上
3、yarn => 将spark应用运行在yarn上, 80%的公司选择将程序运行在yarn上
4、mesos => 将spark应用运行在mesos上
standalone、yarn、mesos均为集群资源管理器;mesos、standalone都是类似yarn的一种资源管理器
首先对Spark on Local 进行环境搭建和测试
环境搭建
- 先安装Scala
# 1.解压安装包
$ tar -zxf scala-2.11.8.tgz
# 2.配置环境变量
$ sudo vi /etc/profile
#SCALA_HOME
export SCALA_HOME=scala安装目录
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin
# 3.测试
$ source /etc/profile
$ scala -version
- 解压编译好的压缩包或者软件工具文件夹中的压缩包
$ tar -zxf spark-2.2.1-bin-hadoop2.7.tgz - 修改配置信息(conf/spark-env.sh)
$ mv conf/spark-env.sh.template conf/spark-env.sh
JAVA_HOME=/opt/modules/java
SCALA_HOME=/opt/modules/scala
HADOOP_CONF_DIR=/opt/modules/cdh/hadoop-2.6.0-cdh5.14.2/etc/hadoop
SPARK_LOCAL_IP=[hostname]
linux本地环境测试
-
- 启动hdfs的服务
- 运行run-example
$ bin/run-example SparkPi
$ bin/run-example SparkPi 100