大数据集群之spark2(2)

2401_84181273

于 2024-05-01 04:21:05 发布

阅读量449

点赞数 22

分类专栏：程序员文章标签：大数据

本文链接：https://blog.csdn.net/2401_84181273/article/details/138363207

版权

程序员专栏收录该内容

169 篇文章 1 订阅

订阅专栏

2、解压文件

3、创建软链接

三、修改配置文件

1、slaves配置

2、spark-env.sh配置

3、metrics.properties配置

4、spark-defaults.conf配置

四、环境变量配置

1、环境变量配置

2、环境变量立即生效

五、HDFS上传Spark jar包

1、创建HDFS spark jar路径

2、上传spark jar包到hdfs

六、启动spark

1、启动spark master（hadoop001）

2、启动spark 备用master（hadoop002）

3、在master上启动日志服务

七、Spark环境测试

1、spark shell命令

2、本地模式测试

3、指定Mater测试

4、Spark On Yarn模式运行

5、Spark Kill Application

6、Master Web UI

7、HistoryServer WebUI

一、环境准备

二、解压安装

1、下载spark

Spark 2.4.0：https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Spark 3.0.0：https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

注意：Spark2.4.0依赖Scala2.11环境，Spark3.0.0依赖Scala2.12环境，这里适用2.4.0和3.0.0两个版本

wget -p /usr/local/hadoop/ https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

2、解压文件

tar zxpf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/local/hadoop

3、创建软链接

ln -s /usr/local/hadoop/spark-2.4.0-bin-hadoop2.7 /usr/local/hadoop/spark

三、修改配置文件

1、slaves配置

echo 'hadoop003

hadoop004

hadoop005

hadoop006’ > /usr/local/hadoop/spark/conf/slaves

2、spark-env.sh配置

vim /usr/local/hadoop/spark/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8

export SCALA_HOME=/usr/local/hadoop/scala

export MYSQL_HOME=/usr/local/mysql

export CLASSPATH=.:/usr/java/jdk1.8/lib/dt.jar:/usr/java/jdk1.8/lib/tools.jar

export SPARK_HOME=/usr/local/hadoop/spark

export HADOOP_HOME=/usr/local/hadoop/hadoop

export HBASE_HOME=/usr/local/hadoop/hbase

export GEOMESA_HBASE_HOME=/usr/local/hadoop/geomesa-hbase

export ZOO_HOME=/usr/local/hadoop/zookeeper

export SPARK_WORKING_MEMORY=16G

export SPARK_MASTER_IP=hadoop001

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export YARN_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export SPARK_LOCAL_DIRS=/home/spark/tmp

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://ns1/spark/directory

-Dspark.history.retainedApplications=30"

SPARK_MASTER_WEBUI_PORT=8989

export SPARK_DAEMON_JAVA_OPTS="

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=hadoop001,hadoop002,hadoop003

-Dspark.deploy.zookeeper.dir=/spark"

3、metrics.properties配置

vim /usr/local/hadoop/spark/conf/metrics.properties

*.sink.csv.directory=/home/spark/tmp/csv/

4、spark-defaults.conf配置

vim /usr/local/hadoop/spark/conf/spark-defaults.conf

spark.local.dir /home/spark/tmp

spark.eventLog.enabled true

spark.eventLog.dir hdfs://ns1/spark/directory

spark.yarn.jars hdfs://ns1/spark/jars/*.jar

spark.serializer org.apache.spark.serializer.KryoSerializer

四、环境变量配置

1、环境变量配置

echo ’

spark config

export SPARK_HOME=/usr/local/hadoop/spark

export PATH= $P A T H :$ SPARK_HOME/bin’ >> /etc/profile

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

PATH= $P A T H :$ SPARK_HOME/bin’ >> /etc/profile

[外链图片转存中…(img-GbR15VZF-1714508422637)]
[外链图片转存中…(img-4A9WhphO-1714508422637)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

2401_84181273

关注

22
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大数据集群之spark2(2)

一、环境准备。
复制链接

扫一扫

专栏目录

大数据集群之spark2(2)

1、spark官网

2、下载地址

3、官方文档

4、SSH免密配置

5、Scala2.12安装

1、下载spark

2、解压文件

3、创建软链接

1、slaves配置

2、spark-env.sh配置

export SPARK_MASTER_IP=hadoop001

3、metrics.properties配置

4、spark-defaults.conf配置

1、环境变量配置

spark config