最全大数据集群之spark2(1)，2024年最新面试题解析已整理成文档

2401_84182578

于 2024-05-16 04:22:18 发布

阅读量844

点赞数 24

文章标签：大数据面试学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84182578/article/details/138935985

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

三、修改配置文件

1、slaves配置

2、spark-env.sh配置

3、metrics.properties配置

4、spark-defaults.conf配置

四、环境变量配置

1、环境变量配置

2、环境变量立即生效

五、HDFS上传Spark jar包

1、创建HDFS spark jar路径

2、上传spark jar包到hdfs

六、启动spark

1、启动spark master（hadoop001）

2、启动spark 备用master（hadoop002）

3、在master上启动日志服务

七、Spark环境测试

1、spark shell命令

2、本地模式测试

3、指定Mater测试

4、Spark On Yarn模式运行

5、Spark Kill Application

6、Master Web UI

7、HistoryServer WebUI

一、环境准备

1、spark官网

Apache Spark™ - Unified Engine for large-scale data analytics

2、下载地址

Index of /dist/spark

3、官方文档

Overview - Spark 3.2.0 Documentation

4、SSH免密配置

大数据入门之 ssh 免密码登录_qq262593421的博客-CSDN博客

5、Scala2.12安装

Linux 安装 scala2.12.11_qq262593421的博客-CSDN博客

二、解压安装

1、下载spark

Spark 2.4.0：https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Spark 3.0.0：https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

注意：Spark2.4.0依赖Scala2.11环境，Spark3.0.0依赖Scala2.12环境，这里适用2.4.0和3.0.0两个版本

wget -p /usr/local/hadoop/ https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

2、解压文件

tar zxpf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/local/hadoop

3、创建软链接

ln -s /usr/local/hadoop/spark-2.4.0-bin-hadoop2.7 /usr/local/hadoop/spark

三、修改配置文件

1、slaves配置

echo 'hadoop003

hadoop004

hadoop005

hadoop006’ > /usr/local/hadoop/spark/conf/slaves

2、spark-env.sh配置

vim /usr/local/hadoop/spark/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8

export SCALA_HOME=/usr/local/hadoop/scala

export MYSQL_HOME=/usr/local/mysql

export CLASSPATH=.:/usr/java/jdk1.8/lib/dt.jar:/usr/java/jdk1.8/lib/tools.jar

export SPARK_HOME=/usr/local/hadoop/spark

export HADOOP_HOME=/usr/local/hadoop/hadoop

export HBASE_HOME=/usr/local/hadoop/hbase

export GEOMESA_HBASE_HOME=/usr/local/hadoop/geomesa-hbase

export ZOO_HOME=/usr/local/hadoop/zookeeper

export SPARK_WORKING_MEMORY=16G

export SPARK_MASTER_IP=hadoop001

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export YARN_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export SPARK_LOCAL_DIRS=/home/spark/tmp

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://ns1/spark/directory

-Dspark.history.retainedApplications=30"

SPARK_MASTER_WEBUI_PORT=8989

export SPARK_DAEMON_JAVA_OPTS="

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=hadoop001,hadoop002,hadoop003

-Dspark.deploy.zookeeper.dir=/spark"

3、metrics.properties配置

vim /usr/local/hadoop/spark/conf/metrics.properties

*.sink.csv.directory=/home/spark/tmp/csv/

4、spark-defaults.conf配置

vim /usr/local/hadoop/spark/conf/spark-defaults.conf

spark.local.dir /home/spark/tmp

spark.eventLog.enabled true

spark.eventLog.dir hdfs://ns1/spark/directory

spark.yarn.jars hdfs://ns1/spark/jars/*.jar

spark.serializer org.apache.spark.serializer.KryoSerializer

四、环境变量配置

1、环境变量配置

echo ’

spark config

export SPARK_HOME=/usr/local/hadoop/spark

export PATH= $P A T H :$ SPARK_HOME/bin’ >> /etc/profile

2、环境变量立即生效

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

SPARK_HOME/bin’ >> /etc/profile

2、环境变量立即生效

[外链图片转存中…(img-A98qcCGb-1715804516656)]
[外链图片转存中…(img-geYesTlY-1715804516656)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

24
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
最全大数据集群之spark2(1)，2024年最新面试题解析已整理成文档

一、环境准备。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。