Scala和Spark的安装教程

文章目录
1.概述
2.安装
3.配置系统变量
4.进入spark shell

1.概述
spark官方http://spark.apache.org
spark是一个围绕速度,易用性和复杂分析架构的大数据处理框架;
他有如下优势:

运行速度快。spark是基于内存的,是hadoop的是100倍;
易用性。可以使用java,scala,python或者其他语言来写;
mapReduce,还支持sql查询,流数据,机器学习和图计算;
spark不仅仅可以处理hdfs上的数据,还可以处理其他数据。

三台虚拟机
hadoop01 主节点
hadoop02 从节点
hadoop03 从节点

2.安装
首先需要scala和spark的两个压缩包:

解压scala
tar -xvf scala-2.12.11.tgz
解压spark
tar -xvf spark-2.2.0-bin-hadoop2.7.tgz
如果解压到指定目录 在 后面加上 -C /路径

3.配置系统变量

   编辑系统配置文件
   vim /etc/profile

#jdk
export JAVA_HOME=/home/java/jdk1.8.0_251
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH

#zookeeper
export ZOOKEEPER_HOME=/home/zk/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH

#hadoop
export HADOOP_HOME=/home/hadoop/hadoop-2.7.7
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

#scale
export SCALA_HOME=/home/scala/scala-2.12.11
export PATH=$SCALA_HOME/bin:$PATH

#spark
export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

生效
source /etc/profile


环境变量生效以后 运行命令 :scala -version
查看scala是否可以查到版本

[root@hadoop01 scala-2.12.11]# scala -version
Scala code runner version 2.12.11 -- Copyright 2002-2020, LAMP/EPFL and Lightbend, Inc.
[root@hadoop01 scala-2.12.11]# 
出现 Scala code runner version 2.12.11 证明scala可以用了

安装spark

 解压到指定目录 /home/spark
 tar -xvf spark-2.2.0-bin-hadoop2.7.tgz -C /home/spark/
 cd conf目录下
 cp spark-env.sh.template spark-env.sh
 编辑 vim spark-env.sh
# export SPARK_SSH_OPTS="-p 61333"可写可不写
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_INSTANCES=1
export SCALA_HOME=/home/scala/scala-2.12.11
export JAVA_HOME=/home/java/jdk1.8.0_251
export HADOOP_HOME=/home/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7
export SPARK_CONF_DIR=$SPARK_HOME/conf
export SPARK_EXECUTOR_MEMORY=5120M
export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-2.7.7/bin/hadoop classpath)
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop01:2181,hadoop01:2181,hadoop03:2181,hadoop04:2181,hadoop05:2181 -Dspark.deploy.zookeeper.dir=/spark"
SPARK_MASTER_IP指定的是master节点的IP
保存退出 :wq!

cp slaves.template slaves
编辑 vim slaves
在其中加入worker节点的hostname(这里总共三台机器hadoop01,hadoop02,hadoop03)
写两台从节点
hadoop02
hadoop03

这里就配置好了spark了
现在把配好的spark发送到两个从节点
scp -r 你的spark地址 @hadoop02:/同路径
scp -r 你的spark地址 @hadoop03:/同路径

cd spark/sbin
启动spark
./start-all.sh
成功状态
hadoop01 :Master
hadoop02 :Worker
hadoop03 :Worker

访问spark网页 主机名:8080默认端口
如果访问失败 修改端口号
cd sbin 修改 vim start-master.sh 
端口号改成8081 再次访问spark网页!!!

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值