大数据系列 : Spark集群环境搭建

最新推荐文章于 2023-03-19 21:09:05 发布

卢瑟农生

最新推荐文章于 2023-03-19 21:09:05 发布

阅读量210

点赞数

分类专栏：大数据文章标签： Spark 大数据 Spark环境

本文链接：https://blog.csdn.net/qq_40651717/article/details/85456337

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

前言

本文环境基于Hadoop - Yarn平台搭建

Yarn的平台环境默认已经搭建完毕

前置环境

Linux集群 , Java , Zookeeper , Hadoop , Scala , python-pip(pssh)

下载Spark安装包

官网地址 https://spark.apache.org/downloads.html

如果外网下载速度较慢 , 可以找到对应版本号后 , 下载国内源的镜像

镜像地址

清华大学镜像 - https://mirrors.tuna.tsinghua.edu.cn/apache/spark

上海大学镜像 - http://mirrors.shuosc.org/apache/spark/

Spark安装

下载成功

解压缩

修改配置文件

复制并修改spark-env.sh.template

export JAVA_HOME=/root/apps/jdk1.8.0_191
export SCALA_HOME=/root/apps/scala-2.12.8
export HADOOP_HOME=/root/apps/hadoop-2.8.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#export SPARK_MASTER_HOST=hdp-01
#export SPARK_LOCAL_IP=0.0.0.0
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=1024m
export SPARK_WORKER_CORES=1
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01:2181,hdp-02:2181,hdp-03:2181,hdp-04:2181 -Dspark.deploy.zookeeper.dir=/root/apps/spark-2.2.2-bin-hadoop2.6"

#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01,hdp-02,hdp-03"

######配置说明#####
#做了spark的HA配置 , 集群主从配置由Zookeeper接管
#Zookeeper会保存spark集群的所有状态信息 , 包括所有的workers、application、driver信息
#保存位置在/spark