Spark-client,Spark-yarn模式

spark的集群主要有三种运行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn模式。

standalone模式

standalone模式,是spark自己实现的,它是一个资源调度框架。这里我们要关注这个框架的三个节点:

1)client

2)master

3)worker

spark应用程序有一个Driver驱动,Driver可以运行在Client上也可以运行在master上。如果你使用spark-shell去提交job的话它会是运行在master上的,如果你使用spark-submit或者IDEA开发工具方式运行,那么它是运行在Client上的。这样我们知道了,Client的主体作用就是运行Driver。而master除了资源调度的作用还可以运行Driver。

再关注master和worker节点,standalone是一个主从模式,master节点负责资源管理,worker节点负责任务的执行。

Standalone-client执行流程

client模式提交任务后,会在客户端启动Driver进程。
Driver会向Master申请启动Application启动的资源。
资源申请成功,Driver端将task发送到worker端执行。
worker将task执行结果返回到Driver端。
Standalone-client提交模式总结:

        client模式适用于测试调试程序

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Apache Spark是一个分布式计算框架,可以运行在Hadoop集群上。而YARN是Hadoop的资源管理器,可以提供资源给Spark来运行。 以下是spark-yarn安装配置的步骤: 1. 安装Hadoop集群 在安装Spark之前,您需要先安装Hadoop集群。请确保您的Hadoop集群正在运行,并且您可以使用hadoop命令行工具访问它。 2. 下载SparkSpark官方网站下载Spark二进制文件,并解压缩到您的目录中。您可以将Spark安装在任何地方,只要您的Hadoop集群可以访问它即可。 3. 配置SparkSpark的conf目录下,有一个spark-env.sh文件,您需要编辑它来配置Spark的环境变量。将以下内容添加到文件末尾: export HADOOP_CONF_DIR=/path/to/hadoop/conf 这将告诉Spark去哪里找到Hadoop的配置文件。 4. 配置YARNSpark的conf目录下,有一个spark-defaults.conf文件,您需要编辑它来配置Spark使用YARN。将以下内容添加到文件末尾: spark.master yarn spark.submit.deployMode client spark.executor.memory 2g spark.driver.memory 2g 这将告诉Spark使用YARN作为资源管理器,并设置内存大小。 5. 运行Spark应用程序 现在,您可以运行Spark应用程序了。使用以下命令: ./bin/spark-submit --class <main-class> --master yarn --deploy-mode client <application-jar> <application-arguments> 其中,<main-class>是您的主类,<application-jar>是您的应用程序jar文件,<application-arguments>是您的应用程序参数。 6. 监控应用程序 您可以在YARN的Web界面上监控您的应用程序。打开以下网址: http://<yarn-resource-manager>:8088/cluster 其中,<yarn-resource-manager>是您的YARN资源管理器的主机名。在Web界面上,您可以看到正在运行的应用程序的状态和日志。 这就是spark-yarn安装配置的步骤。祝您好运!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值