Spark on YARN 环境搭建，【深度思考】

最新推荐文章于 2024-10-09 15:55:17 发布

文景中辉

最新推荐文章于 2024-10-09 15:55:17 发布

阅读量744

点赞数 12

分类专栏： 2024年程序员学习文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2301_77054033/article/details/137489710

版权

2024年程序员学习专栏收录该内容

67 篇文章 0 订阅

订阅专栏


cd /export/server/hadoop-3.3.0/etc/hadoop/ vim /export/server/hadoop-3.3.0/etc/hadoop/yarn-site.xml 添加以下内容: yarn.resourcemanager.hostname node1 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.resource.memory-mb 20480 yarn.scheduler.minimum-allocation-mb 2048 yarn.nodemanager.vmem-pmem-ratio 2.1 yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800 yarn.log.server.url http://node1:19888/jobhistory/logs yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-check-enabled false

cd /export/server/hadoop-3.3.0/etc/hadoop/ vim /export/server/hadoop-3.3.0/etc/hadoop/yarn-site.xml 添加以下内容: yarn.resourcemanager.hostname node1 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.resource.memory-mb 20480 yarn.scheduler.minimum-allocation-mb 2048 yarn.nodemanager.vmem-pmem-ratio 2.1 yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800 yarn.log.server.url http://node1:19888/jobhistory/logs yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-check-enabled false

将其同步到其他两台


cd /export/server/hadoop/etc/hadoop *scp -r yarn-site.xml node2: $P W D * * * sc p - ry a r n - s i t e . x m l n o d e 3 :$ PWD**

3.Spark设置历史服务地址


cd /export/server/spark/conf cp spark-defaults.conf.template spark-defaults.conf vim spark-defaults.conf 添加以下内容: spark.eventLog.enabled true spark.eventLog.dir hdfs://node1:8020/sparklog/ spark.eventLog.compress true spark.yarn.historyServer.address node1:18080 配置后, 需要在HDFS上创建 sparklog目录 hdfs dfs -mkdir -p /sparklog

4.设置日志级别:


cd /export/server/spark/conf cp log4j.properties.template log4j.properties vim log4j.properties 修改以下内容: log4j.rootCategory=WARN, console

同步到其他节点


cd /export/server/spark/conf *scp -r spark-defaults.conf log4j.properties node2: $P W D * * * sc p - rs p a r k - d e f a u lt s . co n f l o g 4 j . p ro p er t i es n o d e 3 :$ PWD**

5.配置依赖spark jar包 **当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，**设置属性告知Spark Application应用。 |
| hadoop fs -mkdir -p /spark/jars/ hadoop fs -put /export/server/spark/jars/* /spark/jars/ 修改spark-defaults.conf cd /export/server/spark/conf vim spark-defaults.conf 添加以下内容: spark.yarn.jars hdfs://node1:8020/spark/jars/* |

同步到其他节点(无需分发, spark只有一个单节点)


cd /export/server/spark/conf *scp -r spark-defaults.conf root@node2: $P W D * * * sc p - rs p a r k - d e f a u lt s . co n f roo t @ n o d e 3 :$ PWD**