spark简答题

Spark生态系统:

Spark生态系统以 Spark Core 为核心,利用 Standalone,YARN 和 Mesos 等进行资源调度
管理,完成应用程序分析与处理。这些应用程序来自 Spark 的不同组件,如 Spark Shell,
Spark Submit交互式批处理、Spark Streaning实时流处理、Spark SQL 快速查询,MLlib机器学
习、GraphX 图处理等。

Spark SQL是一种结构化的数据处理模块。

Spark Streaming是Spark API核心的一个超高通量的拓展,可以处理实时数据流的数据并进行容错。

MLlib是Spark提供的可扩展的机器学习库。

GraphX在Graphs和Graph-parallel并行计算中是一个新的部分,GraphX是Spark上的分布式图形处理框架,可用于图表计算。

Spark作业工作流程:

(1)注册申请资源构建Spark Application的运行环境,启动SparkContext。

(2)SparkContext向资源管理器(可以是Standalone,Mesos,Yarn)申请运行Executor资源 。

 (3) 资源管理器分配Executor,并启动Executor。并且Executor发送心跳给资源管理器 。

(4)Executor向SparkContext申请Task。

(5)SparkContext将应用程序分发给Executor。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值