Spark知识点

最新推荐文章于 2024-05-16 19:43:58 发布

takeuheart

最新推荐文章于 2024-05-16 19:43:58 发布

阅读量283

点赞数

分类专栏： Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/takeuherat/article/details/113827932

版权

Spark知识点

1.Spark的使用场景

Spark官网给出的说法：Spark是一个通用的快速分析引擎。Spark为我们常见的批处理、流处理、数据探索(数据挖掘)、机器学习等场景提供了很好的解决方案，任何有数据分析需求的人都可以使用。

2.“三架马车”

从 2003 年到 2006 年，Google 分别在 ODSI 与 SOSP 发表了 3 篇论文，引起了业界对于分布式系统的广泛讨论，这三篇论文分别是：

SOSP2003：The Google File System；分布式文件系统(GFS)

ODSI2004：MapReduce: Simplifed Data Processing on Large Clusters；分布式计算框架(MapReduce)

ODSI2006：Bigtable: A Distributed Storage System for Structured Data。分布式数据存储(Hbase)

3.Hadoop的各个版本特点

1）Hadoop1.0：主节点可靠性差，没有热备。作业过多使得调度成为瓶颈。资源利用率低，并且不能适配其他分布式计算框架

2）Hadoop2.0：引入了资源管理和调度系统Yarn。HDFS变成了很多系统的底层存储，Yarn兼容多种计算框架。

3）Hadoop3.0：MR变为基于内存+IO+磁盘共同处理数据。

4.统一资源管理与调度—Yarn

统一是所有计算框架对于资源的获取都是一致的。资源的维度有两个：CPU和内存。调度的宏观机制目前有三种：集中式调度器、双层调度器、状态共享调度器

5.Yarn调度流程

在这里插入图片描述

第 1 步：客户端向 ResourceManager 提交自己的应用，这里的应用就是指 MapReduce 作业。

第 2 步：ResourceManager 向 NodeManager 发出指令，为该应用启动第一个 Container，并在其中启动 ApplicationMaster。

第 3 步：ApplicationMaster 向 ResourceManager 注册。

第 4 步：ApplicationMaster 采用轮询的方式向 ResourceManager 的 YARN Scheduler 申领资源。

第 5 步：当 ApplicationMaster 申领到资源后（其实是获取到了空闲节点的信息），便会与对应 NodeManager 通信，请求启动计算任务。

第 6 步：NodeManager 会根据资源量大小、所需的运行环境，在 Container 中启动任务。

第 7 步：各个任务向 ApplicationMaster 汇报自己的状态和进度，以便让 ApplicationMaster 掌握各个任务的执行情况。

第 8 步：应用程序运行完成后，ApplicationMaster 向 ResourceManager 注销并关闭自己。

6.Spark on Yarn的调度方式

Spark自己实现了一个集中式调度器Driver，用来调度作业内的计算任务。本质是Driver在Yarn中注册成为(框架调度器)二级调度器，是一种曲线救国的双层调度实现方式。

7.Spark RDD(弹性分布式数据集)是对数据的核心抽象，实质上是一组分布式的JVM不可变对象的集合。

弹性体现在出错之后的血缘回溯、转换时分区位置及数量的不确定性。

8.创建RDD的几种方式

并行化集合
val rdd = spark.

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark知识点

Spark知识点1.Spark的使用场景Spark官网给出的说法：Spark是一个通用的快速分析引擎。Spark为我们常见的批处理、流处理、数据探索(数据挖掘)、机器学习等场景提供了很好的解决方案，任何有数据分析需求的人都可以使用。2.“三架马车”从 2003 年到 2006 年，Google 分别在 ODSI 与 SOSP 发表了 3 篇论文，引起了业界对于分布式系统的广泛讨论，这三篇论文分别是：SOSP2003：The Google File System；分布式文件
复制链接

扫一扫

专栏目录

takeuheart CSDN认证博客专家 CSDN认证企业博客

码龄5年

116: 原创

32万+: 周排名

47万+: 总排名

3万+: 访问

: 等级

1307: 积分

19: 粉丝

16: 获赞

6: 评论

72: 收藏

私信

关注

热门文章

分类专栏

Spark 1篇
JVM虚拟机 7篇
Java并发编程 12篇
网络协议 2篇
数据结构与算法 1篇
Hive 4篇
JUC 1篇
机器学习 1篇
Kafka 1篇
Hbase 3篇
Flume 1篇
Sqoop
Netty 1篇
Hadoop 3篇
Linux 2篇
JVM 1篇
Zookeeper 1篇
scala 6篇
mysql 8篇
java 57篇
大数据 11篇
计算机 1篇

最新评论

Java并发编程—阻塞队列
ctotalk: 挺好
JUC并发编程入门
takeuheart: 哈哈哈，其实是懒得打字
JUC并发编程入门
原味吐司: 喜欢这种文风
Request
takeuheart 回复「已注销」: 好的，多谢建议
Request
「已注销」: 建议把request获取get方式的请求参数改为 request获取get请求方式的请求参数这样更容易理解。只是个人建议啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。