Spark概念理解

一、整体结构

1、 Application

每一次通过Spark-submit命令提交的Jar包,都可以看成一个Spark应用程序。它是集群资源器调度的基本单位,一个应用程序对应一个驱动程序。

用户程序,如计算PI的值,统计数据报表等


2、Driver Program

驱动程序就是执行了一个Spark Application的main函数和创建Spark Context的进程,它包含了这个application的全部代码。

问题:Driver是跑在哪个节点上,对应到U服务呢?


3.Master节点
运行Master守护进程的集群节点,管理整个集群,一个集群中,只有一个Active的Master节点。Master节点有两个用途:一是应用程序的调度,对用户提交的应用程序,进行执行先后顺序的调度;二是资源调度,由于集群的资源实际是指Worker节点上的计算和内存资源,因此Master节点是对Worker节点进行资源上的调度。

问题:和YARN有什么关系?


4.Worker节点
运行Worker守护进程的集群节点,是集群资源的贡献节点,一个Worker内部可以包含多个Executor。一个集群中,Worker节点一般会有多个,并且受到Master节点的管理。

就是计算节点。


5.任务执行器(Executor)

Worker节点上执行任务的地方,一个Worker节点可能有多个Executor,每个Executor都拥有固定的核心数量和堆栈大小,并维护一

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark on Hive是指在Spark框架下使用Hive作为数据仓库的一种模式。在这种模式下,Spark可以直接通过Hive的元数据和数据进行操作和分析,而无需额外导入和处理数据。 首先,理解Spark on Hive需要明白Hive和Spark的基本概念。Hive是一个基于Hadoop的数据仓库工具,用于管理和分析大规模数据。它提供了类似于SQL的查询语言HiveQL,可用于查询和分析存储在Hadoop上的数据。而Spark是一个快速、通用的集群计算系统,可用于大规模数据处理和分析。 在理解了Hive和Spark的基本概念后,理解Spark on Hive需要了解其工作原理。Spark可以直接在Hive上运行查询,并将查询结果加载到Spark中进行进一步的数据处理和分析。这样做的好处是能够充分利用Hive的数据仓库功能和元数据信息,同时利用Spark的分布式计算能力进行高效的数据处理和分析。 此外,理解Spark on Hive还需要了解其应用场景和优势。这种模式可以在不同的场景中使用,例如在数据仓库、数据分析和机器学习等方面。同时,由于Spark和Hive都是基于Hadoop的工具,因此它们的结合能够更好地适应Hadoop生态系统,并能够充分利用Hive的数据存储和管理功能,同时利用Spark的计算能力和易用性。 总之,理解Spark on Hive需要对Hive和Spark有一定的了解,并且需要理解其工作原理、应用场景和优势,从而能够更好地利用这种模式进行数据处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值