最全大数据集群之spark2(1),2024年最新面试题解析已整理成文档

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

三、修改配置文件

1、slaves配置

2、spark-env.sh配置

3、metrics.properties配置

4、spark-defaults.conf配置

四、环境变量配置

1、环境变量配置

2、环境变量立即生效

五、HDFS上传Spark jar包

1、创建HDFS spark jar路径

2、上传spark jar包到hdfs

六、启动spark

1、启动spark master(hadoop001)

2、启动spark 备用master(hadoop002)

3、在master上启动日志服务

七、Spark环境测试

1、spark shell命令

2、本地模式测试

3、指定Mater测试

4、Spark On Yarn模式运行

5、Spark Kill Application

6、Master Web UI

7、HistoryServer WebUI


一、环境准备


1、spark官网

Apache Spark™ - Unified Engine for large-scale data analytics

2、下载地址

Index of /dist/spark

3、官方文档

Overview - Spark 3.2.0 Documentation

4、SSH免密配置

大数据入门之 ssh 免密码登录_qq262593421的博客-CSDN博客

5、Scala2.12安装

Linux 安装 scala2.12.11_qq262593421的博客-CSDN博客

二、解压安装


1、下载spark

Spark 2.4.0:https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Spark 3.0.0:https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

注意:Spark2.4.0依赖Scala2.11环境,Spark3.0.0依赖Scala2.12环境,这里适用2.4.0和3.0.0两个版本

wget -p /usr/local/hadoop/ https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

2、解压文件

tar zxpf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/local/hadoop

3、创建软链接

ln -s /usr/local/hadoop/spark-2.4.0-bin-hadoop2.7 /usr/local/hadoop/spark

三、修改配置文件


1、slaves配置

echo 'hadoop003

hadoop004

hadoop005

hadoop006’ > /usr/local/hadoop/spark/conf/slaves

2、spark-env.sh配置

vim /usr/local/hadoop/spark/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8

export SCALA_HOME=/usr/local/hadoop/scala

export MYSQL_HOME=/usr/local/mysql

export CLASSPATH=.:/usr/java/jdk1.8/lib/dt.jar:/usr/java/jdk1.8/lib/tools.jar

export SPARK_HOME=/usr/local/hadoop/spark

export HADOOP_HOME=/usr/local/hadoop/hadoop

export HBASE_HOME=/usr/local/hadoop/hbase

export GEOMESA_HBASE_HOME=/usr/local/hadoop/geomesa-hbase

export ZOO_HOME=/usr/local/hadoop/zookeeper

export SPARK_WORKING_MEMORY=16G

export SPARK_MASTER_IP=hadoop001

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export YARN_CONF_DIR=/usr/local/hadoop/hadoop/etc/hadoop/

export SPARK_LOCAL_DIRS=/home/spark/tmp

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://ns1/spark/directory

-Dspark.history.retainedApplications=30"

SPARK_MASTER_WEBUI_PORT=8989

export SPARK_DAEMON_JAVA_OPTS="

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=hadoop001,hadoop002,hadoop003

-Dspark.deploy.zookeeper.dir=/spark"

3、metrics.properties配置

vim /usr/local/hadoop/spark/conf/metrics.properties

*.sink.csv.directory=/home/spark/tmp/csv/

4、spark-defaults.conf配置

vim /usr/local/hadoop/spark/conf/spark-defaults.conf

spark.local.dir /home/spark/tmp

spark.eventLog.enabled true

spark.eventLog.dir hdfs://ns1/spark/directory

spark.yarn.jars hdfs://ns1/spark/jars/*.jar

spark.serializer org.apache.spark.serializer.KryoSerializer

四、环境变量配置


1、环境变量配置

echo ’

spark config

export SPARK_HOME=/usr/local/hadoop/spark

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin’ >> /etc/profile

2、环境变量立即生效

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

SPARK_HOME/bin’ >> /etc/profile

2、环境变量立即生效

[外链图片转存中…(img-A98qcCGb-1715804516656)]
[外链图片转存中…(img-geYesTlY-1715804516656)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 24
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
尚硅谷大数据技术之高频面试题8.0.9.docx是一份大数据技术的面试题集合。这份文档包含了大数据领域的高频面试题,对于准备面试或者想要了解大数据技术的人来说是一份非常有价值的资料。 文档中的问题涵盖了大数据的各个方面,包括Hadoop、Spark、Hive、HBase、Flume、Kafka等大数据技术工具和框架。这些问题不仅考察了对这些技术的基本概念和原理的理解,还包括实际应用和常见问题的解决方法。 例如,文档中可能包含有关如何配置和使用Hadoop集群,如何在Spark中使用RDD和DataFrame进行数据处理,如何在Hive中执行SQL查询,如何在HBase中创建和管理表,如何使用Flume和Kafka进行数据采集和流处理等问题。 大数据技术的发展和应用已为当今互联网和信息技术领域的热点,对于从业人员来说,具备相关技术的知识和能力将有助于在竞争激烈的市场中脱颖而出。而这份面试题文档则是一个很好的参考资料,可以帮助人们系统性地学习和掌握大数据技术,增加应对实际面试功几率。 总而言之,尚硅谷大数据技术之高频面试题8.0.9.docx是一份非常有价值的大数据技术面试题集合,将大大提升读者的面试准备能力和对大数据技术的了解。通过仔细阅读和思考这份文档中的问题,读者将能够更好地应对面试,并在大数据领域有更好的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值