Spark环境配置
文章目录
1、压缩包下载
scala下载地址:https://www.scala-lang.org/download/
所选择版本为 scala-2.13.3.tgz
spark下载地址:http://spark.apache.org/downloads.html
所选择的版本为 spark-3.0.0-bin-hadoop2.7.gz
将压缩包上传到三台机器上(三台机器都需要配置,也可以采用先配置一台再分发文件的方式)
2、解压安装
tar -zxf /bigdata/soft/scala-2.13.3.tgz -C /bigdata/install
tar -zxf /bigdata/soft/spark-3.0.0-bin-hadoop2.7.gz -C /bigdata/install
3、修改配置文件
1)添加环境变量
vi ~/.bashrc
添加以下内容
export SCALA_HOME=/bigdata/install/scala-2.13.3
export SPARK_HOME=/bigdata/install/spark-3.0.0-bin-hadoop2.7
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME=/bin
保存退出后,执行
source ~/.bashrc
2)配置spark-env.sh文件
cd /bigdata/install/spark-3.0.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
修改spark-env.sh文件
vi spark-env.sh
#添加以下内容
export JAVA_HOME=/bigdata/install/jdk1.8.0_141
export HADOOP_HOME=/bigdata/install/hadoop-2.6.0-cdh5.14.2
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SCALA_HOME=/bigdata/install/scala-2.13.3
export SCALA_MASTER_IP=master
export SPARK_WORKER_MEMORY=2g
注意:jdk、hadoop这些环境变量的配置与你之前安装的路径和版本有关
3)配置slaves文件
cd /bigdata/install/spark-3.0.0-bin-hadoop2.7/conf
cp slaves.template slaves
vi slaves
添加内容如下
(注意把原来的 localhost 注释或删掉)
master
slave1
slave2
4、启动spark集群
在 master 机器下执行以下命令
1)启动hadoop
start-all.sh
2)启动spark
/bigdata/install/spark-3.0.0-bin-hadoop2.7/sbin/start-all.sh
3)查看进程
jps
4)查看spark集群运行信息
打开浏览器输入http://192.168.49.130:8080/
(该地址为之前配置CentOs时所设定的master的ip)
5、运行官方示例
使用spark官方示例SparkPi
首先进入spark目录下,执行以下命令
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
--executor-memory 1G \
--total-executor-cores 1 \
examples/jars/spark-examples_2.12-3.0.0.jar \
10
说明:
1)–master spark://master:7077:指定Master的地址是master节点
2)–executor-memory 1G --total-executor-cores 1:指定每个executor的可用内存为1GB
3)–total-executor-cores 1:指定每个executor使用的CPU核心数为1个