记录spark安装配置:
因为spark是由Scala语言编写,因此需要先安装Scala环境。
1. 下载
yum -y install wget
wget http://mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
或(二选一)
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
2. 解压:
tar -xzvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
3. 改名:
mv spark-3.0.0-preview2-bin-hadoop3.2 spark
4. 添加环境变量:
vi /etc/profile
5. 添加环境变量配置:
注意spark路径
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
6. 配置Spark
spark-env.sh配置:
将conf文件夹下的
spark-env.sh.template
重命名为spark-env.sh
,并添加以下内容:
cd /opt/spark/conf
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
添加内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_251
export SCALA_HOME=/opt/scala
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_HOST=Masterhadoop
export SPARK_LOCAL_DIRS=/opt/spark
export SPARK_DRIVER_MEMORY=12g #内存
export SPARK_WORKER_CORES=2 #cpus核心数
如果机器内存不大的话,可以适当调小。
6.1 拷贝spark目录到另外两台服务器:
scp -r /opt/spark slave0:/opt
scp -r /opt/spark slave1:/opt
7. 配置完成后 进入sbin目录并查看
sbin目录下启动spark ./start-all.sh
查看进程 jps
Master和worker是spark的进程 剩下的几个是hadoop的进程
所以只要有Master和Worker这两个进程
就说明Spark已经被启动了
bin/spark-shell