spark配置安装

需要先进行hadoop安装

hadoop - hdfs
hadoop - MapReduce -yarn

1、安装anaconda

下载annaconda
上传安装包到linux目录中:
在这里插入图片描述
执行shell文件:

sh ./Anaconda3-5.3.1-Linux-x86_64.sh 
# 执行命令后进行安装目录指定

-> 执行后回车
在这里插入图片描述
-> 输入yes
在这里插入图片描述
-> 输入annaconda存储的路劲
在这里插入图片描述
-> 输入yes初始化
在这里插入图片描述

重启服务器,配置anaconda:
```linux
reboot
vim ~/.condarc
# 增加如下内容
nnels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
auto_activate_base: false
 # 创建一个pyspark虚拟空间
 conda create -n pyspark python=3.8

2、安装spark

spark下载
上传下载文件:
在这里插入图片描述

tar -zxvf spark-3.2.0-bin-hadoop3.2-scala2.13.tgz -C ../soft/
# 进入到soft目录中,该一个短的名称
mv spark-3.2.0-bin-hadoop3.2-scala2.13 saprk320

配置环境变量:

vim ~/.bashrc
# 安装jdk已经配置的
export JAVA_HOME=/home/kk/export/soft/jdk18
export HADOOP_HOME=/home/kk/export/soft/hadoop336
# 新增配置
export SPARK_HOME=/home/kk/export/soft/spark320
export PYSPARK_PYTHON=/home/kk/export/soft/anaconda1/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

本地模式配置完毕:
进入spark安装目录/bin 执行pyspark:
在这里插入图片描述

3、spark 集群模式搭建

配置spark配置文件 - 进入到spark安装目录下的conf目录中
配置workers文件:

vim workers
# 配置集群主机
node11
node22
node33

配置spark-env.sh文件:

vim spark-env.sh
# HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
#export SPARK_MASTER_HOST=node11
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的webui端口
SPARK_MASTER_WEBUI_PORT=8082

# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的webui地址
SPARK_WORKER_WEBUI_PORT=8081
## 设置历史服务器
#将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中,需要在hdfs中创建文件
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node11/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

配置spark-defaults.conf文件

vim spark-defaults.conf
# 开启spark的日期记录功能
spark.eventLog.enabled  true
# # 设置spark日志记录的
# # 设置spark日志是否启动压缩
spark.eventLog.compress  true

node2 和 node3 中也需要安装annaconda
分发spark :

scp -r spark320 node22:`pwd`
scp -r spark320 node33:`pwd`

在spark目录下启动spark节点:

./sbin/start-all.sh 

在这里插入图片描述
浏览器web端查看:
在这里插入图片描述
启动集群pyspark:

pyspark --master spark://node11:7077

在这里插入图片描述

4、 spark高可用搭建

zookeeper安装

配置spark-env.sh文件

vim spark-env.sh
# 配置ha模式
export SPARK_DAEMON_JAVA_OPTS="  
-Dspark.deploy.recoveryMode=ZOOKEEPER  
-Dspark.deploy.zookeeper.url=node11:2181,node22:2181,node33:2181 
-Dspark.deploy.zookeeper.dir=/spark"

配置spark-defuldes.sh文件

# xjycluster为namenode逻辑地址名
spark.hadoop.fs.defaultFS hdfs://xjycluster
# 在hdfs上的日志存储路劲,需要自己创建
spark.eventLog.dir   hdfs://xjycluster/sparklog

在node1中启动集群:

sbin/start-all.sh
# 在node2中启动master
sbin/start-master.sh

浏览器中可以查看两个master
在这里插入图片描述
在这里插入图片描述

# 杀死node1中的master进程查看
skill -9 进程号

等待一段时间后查看node2的master:
在这里插入图片描述

5 spark yarn模式

yarn配置安装

# master地址指定为yarn即可
 ./pyspark --master yarn 

在这里插入图片描述

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值