- 上传Spark安装包(需要下载和Hadoop版本相匹配的安装包)到 /usr/local/中
- 切换到/usr/local/下
- 解压Spark压缩包 tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
- 修改Spark文件夹的名称 mv spark-2.4.3-bin-hadoop2.7 spark
- 删除Spark压缩包 rm spark-2.4.3-bin-hadoop2.7.tgz
- 配置环境变量 vi /etc/profile
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
- 输入命令“source /etc/profile”,并执行,让环境变量生效
- 配置Spark
切换到spark的conf路径下
- 配置spark-env.sh
将spark-env.sh.template 重命名为 spark-env.sh
mv spark-env.sh.template spark-env.sh
使用vi编辑器,打开spark-env.sh,在文件最后,添加如下内容:
SPARK_MASTER_IP Spark中master的IP
SPARK_MASTER_HOST Spark中master的主机名
SPARK_LOCAL_DIRS Spark中暂存空间的使用目录。
SPARK_MASTER_PORT Spark的port端口号
export JAVA_HOME=/usr/local/java
export SCALA_HOME=/usr/local/scala
export HADOOP_CONF=/usr/local/hadoop/etc/hadoop
SPARK_MASTER_IP=192.168.164.100
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077
SPARK_LOCAL_DIRS=/usr/local/spark/tmp
- 配置slaves
将slaves.template 重命名为 slaves
mv slaves.template slaves
使用vi编辑器,打开slaves,在文件最后,添加如下内容:
- 配置spark-defaults.conf (查看历史记录,需要先执行start-history-server.sh)
将spark-defaults.conf.template 改为 spark-defaults.conf
mvspark-defaults.conf.template spark-defaults.conf
修改以下两项:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/directory
- hadoop fs -mkdir /directory 在hdfs上创建directory 文件夹:
修改spark-env.sh,添加如下内容:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://master:9000/directory"
- 配置log4j.properties(减少输出的日志信息,可不改)
将log4j.properties.template 改为 log4j.properties
mv log4j.properties.template log4j.properties
vi log4j.properties 把INFO改为WARN
修改前:
修改后:
- 将spark-env.sh 、slaves、log4j.properties 和 spark-defaults.conf 发布到slave1、slave2、slave3 服务器上
scp slaves root@slave1:/usr/local/spark/conf
scp spark-env.sh root@slave1:/usr/local/spark/conf
scp log4j.properties root@slave1:/usr/local/spark/conf
scp spark-defaults.conf root@slave1:/usr/local/spark/conf
slave2和slave3步骤同上 - start-all.sh 启动服务
- 通过浏览器查看Spark信息
浏览器中,输入http://master:8080
- spark-shell启动spark
- 查看历史记录 master:4000(先执行start-history-server.sh,启动HistoryServer服务)