Spark数据计算框架（人工智能）

xxls(龙帅)

已于 2024-09-04 21:07:20 修改

阅读量815

点赞数 9

文章标签： spark 大数据分布式

于 2024-05-07 20:12:18 首次发布

本文链接：https://blog.csdn.net/m0_73940144/article/details/138211254

版权

1.安装部署

下载地址

https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

1.1.Anaconda On Linux 安装

上传Anaconda3-2021.05-Linux-x86-64.sh安装包后,执行安装命令

cd /export/server

sh ./Anaconda3-2021.05-Linux-x86_64.sh

安装完成后，需要重新连接终端，出现base说明安装成功

配置国内源(看情况，我配置了，还无法创建虚拟环境)

vim ~/.condarc

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

创建虚拟环境

conda create -n pyspark python=3.8

切换到虚拟环境内

conda activate pyspark

1.2. Local模式

上传spark-3.2.0-bin-hadoop3.2安装包

解压

配置环境变量

vim /etc/profile

export SPARK_HOME=/export/server/spark-3.2.0-bin-hadoop3.2
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$SPARK_HOME:$PYSPARK_PYTHON:$HADOOP_CONF_DIR

PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc中

export JAVA_HOME=/export/server/jdk1.8.0_241
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

启动

/export/server/spark-3.2.0-bin-hadoop3.2/bin/pyspark

1.3.Standalone模式

集群规划：

node1\ node2\ node3

node1运行: Spark的Master进程和 1个Worker进程

node2运行: spark的1个worker进程

node3运行: spark的1个worker进程

整个集群提供: 1个master进程和 3个worker进程

配置workers文件：

cd /export/server/spark-3.2.0-bin-hadoop3.2/conf

改名, 去掉后面的.template后缀

mv workers.template workers

vim workers

node1
node2
node3

配置spark-env.sh文件：

改名

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk1.8.0_241

## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=node1
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的 webui端口
SPARK_MASTER_WEBUI_PORT=8080

# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的 webui地址
SPARK_WORKER_WEBUI_PORT=8081

## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

在HDFS上创建程序运行历史记录存放的文件夹:

hadoop fs -mkdir /sparklog

hadoop fs -chmod 777 /sparklog

配置spark-defaults.conf文件:

改名:

mv spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf

# 开启spark的日期记录功能
spark.eventLog.enabled 	true
# 设置spark日志记录的路径
spark.eventLog.dir	 hdfs://node1:8020/sparklog/ 
# 设置spark日志是否启动压缩
spark.eventLog.compress 	true

配置log4j.properties 文件 [可选配置]:

改名:

mv log4j.properties.template log4j.properties

将Spark安装文件夹分发到其它的服务器上:

scp -r spark-3.1.2-bin-hadoop3.2 node2:/export/server/
scp -r spark-3.1.2-bin-hadoop3.2 node3:/export/server/

# 启动历史服务器
sbin/start-history-server.sh

# 启动全部master和worker
sbin/start-all.sh

# 或者可以一个个启动:
# 启动当前机器的master
sbin/start-master.sh

# 启动当前机器的worker
sbin/start-worker.sh

# 停止全部
sbin/stop-all.sh

# 停止当前机器的master
sbin/stop-master.sh

# 停止当前机器的worker
sbin/stop-worker.sh