spark的组件组成部分介绍

 

1.Driver

   它会运行客户端写好的main方法,并且它会创建sparkcontext对象,该对象是所有spark程序的执行入口。

2.Application

它就是一个应用程序,它包括了Driver端的代码逻辑和任务在执行的时候需要的资源信息。

3.clusterManager   :它既是给当前任务提供计算资源的外部服务

     standAlone

     它是spark自带的集群模式,整个任务的资源分配由master负责

     Yarn

       Spark程序可以提交到yarn中去运行,整个任务的资源分配由ResourceManager负责。

     Mesos

     就是一个apache开源的类似于yarn的资源调度平台

4.Master

     它是整个spark集群的老大,它负责资源的分配。

5.Worker

它是整个spark集群的小弟,它负责任务的计算节点

6.Excutor

 它是一个进程,它会在worker节点上启动对应的executor进程

7.task

它就是一个线程,它是以线程的方式运行在worker节点的executor进程中。

二.程序的执行方式  

Bin/spark-submit \

--class org.apache.spark.examples.sparkpi \

--master spark://node:7077 \

--executor-memory 1G \

--total-executor-cores 2 \

Examples/jars/spark-examples_2.11-2.1.3.jar \

10

说明:

--class:指定程序的主类

--master:指定master地址

--executor-memory:指定每一个executor需要的内存大小

--total-executor-cores:执行总的cpu核数

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark组成部分主要包括: 1. Spark Core:Spark 的核心组件,提供了任务调度、内存管理、错误恢复、与存储系统交互等基础功能。 2. Spark SQL:提供了基于 SQL 的数据查询和处理功能,支持 SQL、HiveQL、DataFrame 和 Dataset 等多种数据处理接口。 3. Spark Streaming:提供了对实时数据流的处理支持,可以与 Spark Core 和 Spark SQL 集成使用。 4. MLlib:提供了机器学习的算法库,包括分类、回归、聚类、协同过滤、降维等多种算法。 5. GraphX:提供了图计算的功能,支持图的创建、变换和操作等。 Spark 的各部分含义如下: 1. 任务调度:Spark Core 负责将应用程序划分为任务并在集群中进行调度,以实现并行计算。 2. 内存管理:Spark 将数据存储在内存中,提高了数据处理的速度,同时也需要对内存进行管理以避免内存泄漏等问题。 3. 错误恢复:Spark Core 可以监控任务执行的状态,当任务失败时,可以自动恢复或重启任务,保证应用程序的稳定性。 4. 存储系统交互:Spark 可以与多种存储系统交互,如 Hadoop HDFS、Cassandra、HBase 等,支持数据的读取和写入。 5. SQL 接口:Spark SQL 提供了基于 SQL 的数据查询和处理功能,支持多种数据源和格式,如 JSON、Parquet、ORC 等。 6. 实时数据流处理:Spark Streaming 可以对实时数据流进行处理,支持多种数据源和格式,如 Kafka、Flume、Twitter 等。 7. 机器学习算法库:MLlib 提供了多种机器学习算法的实现,如分类、回归、聚类、协同过滤、降维等。 8. 图计算功能:GraphX 提供了对图数据的处理和操作,支持多种图算法和图操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值