关于Spark on yarn

最新推荐文章于 2024-03-15 01:45:00 发布

potpof

最新推荐文章于 2024-03-15 01:45:00 发布

阅读量248

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_41253208/article/details/104543723

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Cluster 模式

./bin/spark-submit \
--class com.qf.spark.day1.WordCount\
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/home/bigdata/sparkwordcount.jar\
hdfs://node01:9000/wc
hdfs://node01:9000/out-yarn-1

Client 模式

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
lib/spark-examples*.jar\
10

每次提交jar包都会上传一次，耗时久也浪费空间，需要优化
spark on yarn作业运行的jar包缓存优化
1、先将 spark-assembly-hadoop.jar 上传到hdfs的lib目录下
2、上传jar包到这个目录下
3、配置spark文件指定到这个目录

题外话
linux找出某目录下小于1M的文件
find ./ -type f -size -1M 
找出当前目录，及其子目录中，大于1G的所有文件
find ./ -type f -size +1G

注意要根据环境配置这几个参数

--num-executors
--executor-memory 
--executor-cores

Spark on Yarn 执行单元数、内存、CPU 数的推荐分配

yarn 生产环境下资源不足问题和网络的问题

查看spark on yarn的日志和程序状态的方法

Spark运行状态的监控

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

potpof

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark On YARN环境配置

feizuiku0116的博客

02-06

2966

一、准备工作点击查看Spark Standalone HA环境配置教程二、修改配置文件一、修改spark-env.sh cd /export/server/spark/conf vim /export/server/spark/conf/spark-env.sh # 添加以下内容 HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/ YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/

Spark On Yarn环境原理

feizuiku0116的博客

02-07

1058

一、Spark on YARN的优势如果spark程序是运行在yarn上面的话，那么就不需要spark 的集群了，只需要找任意一台机器配置我们的spark的客户端提交任务到yarn集群上面去即可。二、Spark On Yarn本质将Spark任务的pyspark文件，经过Py4J转换，提交到Yarn的JVM中去运行三、Spark ON YARN需要的东西 Yarn集群提交工具：spark-submit命令被提交的PySpark代码：Spark任务的文件需要其他依赖jar:Yarn的JVM运行

1 条评论您还未登录，请先登录后发表或查看评论

spark 2.1 on yarn -- container shell analysis

houzhizhen的专栏

05-24

1214

I set the following content in spark-defaults.confspark.serializer org.apache.spark.serializer.KryoSerializer spark.master yarn spark.executor.instances 2 spark.exec

关于 Spark on Yarn 的资源分配与 Capacity Scheduler 的研究

Laurence的技术博客

06-18

2937

文章目录1. 启用Capacity Scheduler2. 集群信息与配置2.1. yarn.nodemanager.resource.xxx2.2. yarn.scheduler.minimum/maximum-xxxx3. Spark on Yarn的内存模型4. user-limit-factor：单用户时提升资源利用率的重要因子5. 规整化因子6. 测试队列资源划分方案7. 测试计划7.1. 用例一7.2. 用例二7.3. 用例三7.2. 用例四8. 小结资源调度永远是一个对立统一的问题，在一个限

Spark on Yarn安装配置

2301_78038072的博客

03-15

1474

今天我们讲解Spark的安装配置，spark的部署分为两种，一种是Standalone模式，另一种就是on yarn 模式，我们这一节着重讲解on yarn 模式，因为符合生产活动，但也会提到Standalone模式。

Spark on Yarn 环境搭建

weixin_37536020的博客

07-02

1185

当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，设置属性告知Spark Application应用。计算圆周率PI的Spark程序，提交到Yarn上运行，在Centos平台上直接用spark-sumbit脚本提交程序。三台Centos7机器: 主机名分别为：node1、node2、node3。设置资源信息，提交运行pi程序至YARN上。

spark on yarn配置

Nickkun的博客

11-19

1796

在安装好spark后修改spark-env.sh 若没有将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh 添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf 同在conf文件夹下找到spark-defaults.conf.template文件改名spark-defaults.conf 添加如下然后将spark安装目录下的jars中的文件 put到hdfs上图所指

spark on Yarn测试

hyj

12-05

1093

1、启动yarn [root@master sbin]# ./start-dfs.sh Starting namenodes on [master] master: starting namenode, logging to /opt/softWare/hadoop/hadoop-2.7.3/logs/hadoop-root-namenode-master.out slaves1: star...

spark on yarn java_Spark on yarn模式

weixin_35843096的博客

02-19

341

1.配置安装Hadoop：需要安装HDFS模块和YARN模块，spark运行时要把jar包放到HDFS上。安装Spark：不需要启动Spark集群，在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录，Spark程序将作为yarn的客户端用户提交任务。export JAVA_HOME=/usr/local/jdk1.8.0_161export HADOOP...

spark on yarn 环境配置

qq_44779906的博客

10-20

350

当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，设置属性告知Spark Application应用。-- 设置聚合日志在hdfs上的保存时间 -->-- 设置yarn集群的内存分配方案 -->-- 设置yarn历史服务器地址 -->-- 配置yarn主节点的位置 -->-- 关闭yarn内存检查 -->-- 开启日志聚合功能 -->

Spark实验：On Yarn模式安装部署（带答案）1

08-03

Spark on Yarn是一种将Spark应用程序部署在Hadoop YARN资源管理器上的方法，它允许Spark充分利用YARN的资源管理和调度功能。在这个实验中，我们将详细探讨如何在Yarn模式下安装和部署Spark集群。首先，我们需要...

Spark源码系列（七）Sparkonyarn具体实现

01-30

本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark onyarn的实现，1.0.0里面...在第一章《spark-submit提交作业过程》的时候，我们讲过Sparkonyarn的在cluster模式下它的main clas

Spark on Yarn模式部署.docx

10-03

Spark on Yarn 模式部署是一种常见的 Spark 应用场景，本文将详细介绍 Spark on Yarn 模式部署的步骤和配置过程。标题解释 Spark on Yarn 模式部署是指将 Spark 应用程序部署在 Yarn 集群上，使得 Spark 能够使用 ...

comsol模拟不同形状晶粒的煤体、岩体、土体的水力压裂、煤层压裂相场本构模型，内含不同尺寸的骨料、晶粒案例文件众多，包含不

最新发布

10-10

comsol模拟不同形状晶粒的煤体、岩体、土体的水力压裂、煤层压裂相场本构模型，内含不同尺寸的骨料、晶粒。案例文件众多，包含不同尺寸方形晶粒、圆形晶粒、椭圆形晶粒、微小晶粒等。

病房管理系统 SSM毕业设计源码+数据库+论文（JAVA+SpringBoot+Vue.JS）.zip

10-09

病房管理系统 SSM毕业设计源码+数据库+论文（JAVA+SpringBoot+Vue.JS）启动教程：https://www.bilibili.com/video/BV1GK1iYyE2B

技术资料分享非常好的通俗易懂的开关电源原理与维修5.zip

10-09

技术资料分享非常好的通俗易懂的开关电源原理与维修5.zip

使用固体氧化物燃料电池供电的数据中心的废热来冷却其服务器的集成系统的设计Matlab代码.rar

10-09

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

用于开发和测试大脑情感唤醒特征（BAAS）的代码.rar

10-09

#-ssm-024-mysql-物流管理系统vue-.zip

10-09

本系统实现一个物流管理系统。具体功能描述如下： 1. 系统其它信息管理：主要是针对系统的其他的信息进行管理，实现了系统的模块化的管理，系统的框架建设等信息的管理，具有系统的整合性功能的建立，支撑起整个系统的平台建设。 2. 采购管理：系统采购管理，是本平台的一个初始化工作的登记，通过系统用户的用料商品的采购，进行登记管理，能够让平台最初的信息登记做到信息化的统计，方便用户在后期对采购商品的查看管理。 3. 库存管理：库存管理主要是针对采购的物料信息进行入库和出库的管理，方便了用户对物料的登记管理。 4. 供应商管理：供应商信息的管理和登记，是本系统的第三方用户相关信息的登记功能，通过供应商信息的登记，能够方便企业对供应商的查找，快速进货。 5. 配送运输：配送运输是物流管理平台管理物流信息的一个重要的功能点，通过配送运输机制的建立，就能更好地对物流信息进行管理，进行物流信息一体化的建设工作。 6. 出库入库管理：出库入库的信息管理，是本系统建设的一个重要的功能，将采购的物料信息，进行出库入库的登记，入库后，可以新增物料信息的数量，并在出库后，进行数量的减少。 7. 单据查询