Spark on YARN 环境搭建,【深度思考】

cd /export/server/hadoop-3.3.0/etc/hadoop/ vim /export/server/hadoop-3.3.0/etc/hadoop/yarn-site.xml 添加以下内容:                 yarn.resourcemanager.hostname         node1                 yarn.nodemanager.aux-services         mapreduce_shuffle                     yarn.nodemanager.resource.memory-mb         20480                 yarn.scheduler.minimum-allocation-mb         2048                 yarn.nodemanager.vmem-pmem-ratio         2.1                      yarn.log-aggregation-enable         true                     yarn.log-aggregation.retain-seconds         604800                     yarn.log.server.url         http://node1:19888/jobhistory/logs                     yarn.nodemanager.pmem-check-enabled         false                 yarn.nodemanager.vmem-check-enabled         false    

将其同步到其他两台

cd /export/server/hadoop/etc/hadoop scp -r yarn-site.xml node2: P W D ∗ ∗ ∗ ∗ s c p − r y a r n − s i t e . x m l n o d e 3 : PWD** **scp -r yarn-site.xml node3: PWDscpryarnsite.xmlnode3:PWD

3.Spark设置历史服务地址

cd /export/server/spark/conf cp spark-defaults.conf.template spark-defaults.conf vim spark-defaults.conf 添加以下内容: spark.eventLog.enabled                  true spark.eventLog.dir                      hdfs://node1:8020/sparklog/ spark.eventLog.compress                 true spark.yarn.historyServer.address        node1:18080 配置后, 需要在HDFS上创建 sparklog目录 hdfs dfs -mkdir -p /sparklog

4.设置日志级别:

cd /export/server/spark/conf cp log4j.properties.template log4j.properties vim log4j.properties 修改以下内容: log4j.rootCategory=WARN, console

同步到其他节点

cd /export/server/spark/conf scp -r spark-defaults.conf log4j.properties node2: P W D ∗ ∗ ∗ ∗ s c p − r s p a r k − d e f a u l t s . c o n f l o g 4 j . p r o p e r t i e s n o d e 3 : PWD** **scp -r spark-defaults.conf log4j.properties node3: PWDscprsparkdefaults.conflog4j.propertiesnode3:PWD

5.配置依赖spark jar包 **当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,**设置属性告知Spark Application应用。 |
| hadoop fs -mkdir -p /spark/jars/ hadoop fs -put /export/server/spark/jars/* /spark/jars/ 修改spark-defaults.conf cd /export/server/spark/conf vim spark-defaults.conf 添加以下内容: spark.yarn.jars  hdfs://node1:8020/spark/jars/* |

同步到其他节点(无需分发, spark只有一个单节点)

cd /export/server/spark/conf scp -r spark-defaults.conf root@node2: P W D ∗ ∗ ∗ ∗ s c p − r s p a r k − d e f a u l t s . c o n f r o o t @ n o d e 3 : PWD** **scp -r spark-defaults.conf root@node3: PWDscprsparkdefaults.confroot@node3:PWD

6.启动服务

Spark Application运行在YARN上时,上述配置完成

启动服务:HDFS、YARN、MRHistoryServer和Spark HistoryServer,命令如下:

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

,可以添加VX:vip204888 (备注大数据获取)**
[外链图片转存中…(img-Ger9WKMR-1712533334707)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值