文章目录
1.概述
2.安装
3.配置系统变量
4.进入spark shell
1.概述
spark官方http://spark.apache.org
spark是一个围绕速度,易用性和复杂分析架构的大数据处理框架;
他有如下优势:
运行速度快。spark是基于内存的,是hadoop的是100倍;
易用性。可以使用java,scala,python或者其他语言来写;
mapReduce,还支持sql查询,流数据,机器学习和图计算;
spark不仅仅可以处理hdfs上的数据,还可以处理其他数据。
三台虚拟机
hadoop01 主节点
hadoop02 从节点
hadoop03 从节点
2.安装
首先需要scala和spark的两个压缩包:
解压scala
tar -xvf scala-2.12.11.tgz
解压spark
tar -xvf spark-2.2.0-bin-hadoop2.7.tgz
如果解压到指定目录 在 后面加上 -C /路径
3.配置系统变量
编辑系统配置文件
vim /etc/profile
#jdk
export JAVA_HOME=/home/java/jdk1.8.0_251
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH
#zookeeper
export ZOOKEEPER_HOME=/home/zk/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH
#hadoop
export HADOOP_HOME=/home/hadoop/hadoop-2.7.7
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
#scale
export SCALA_HOME=/home/scala/scala-2.12.11
export PATH=$SCALA_HOME/bin:$PATH
#spark
export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
生效
source /etc/profile
环境变量生效以后 运行命令 :scala -version
查看scala是否可以查到版本
[root@hadoop01 scala-2.12.11]# scala -version
Scala code runner version 2.12.11 -- Copyright 2002-2020, LAMP/EPFL and Lightbend, Inc.
[root@hadoop01 scala-2.12.11]#
出现 Scala code runner version 2.12.11 证明scala可以用了
安装spark
解压到指定目录 /home/spark
tar -xvf spark-2.2.0-bin-hadoop2.7.tgz -C /home/spark/
cd conf目录下
cp spark-env.sh.template spark-env.sh
编辑 vim spark-env.sh
# export SPARK_SSH_OPTS="-p 61333"可写可不写
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_INSTANCES=1
export SCALA_HOME=/home/scala/scala-2.12.11
export JAVA_HOME=/home/java/jdk1.8.0_251
export HADOOP_HOME=/home/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7
export SPARK_CONF_DIR=$SPARK_HOME/conf
export SPARK_EXECUTOR_MEMORY=5120M
export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-2.7.7/bin/hadoop classpath)
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop01:2181,hadoop01:2181,hadoop03:2181,hadoop04:2181,hadoop05:2181 -Dspark.deploy.zookeeper.dir=/spark"
SPARK_MASTER_IP指定的是master节点的IP
保存退出 :wq!
cp slaves.template slaves
编辑 vim slaves
在其中加入worker节点的hostname(这里总共三台机器hadoop01,hadoop02,hadoop03)
写两台从节点
hadoop02
hadoop03
这里就配置好了spark了
现在把配好的spark发送到两个从节点
scp -r 你的spark地址 @hadoop02:/同路径
scp -r 你的spark地址 @hadoop03:/同路径
cd spark/sbin
启动spark
./start-all.sh
成功状态
hadoop01 :Master
hadoop02 :Worker
hadoop03 :Worker
访问spark网页 主机名:8080默认端口
如果访问失败 修改端口号
cd sbin 修改 vim start-master.sh
端口号改成8081 再次访问spark网页!!!