大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快

最新推荐文章于 2022-07-31 00:02:08 发布

WEL测试

最新推荐文章于 2022-07-31 00:02:08 发布

阅读量731

点赞数

分类专栏： # 大数据学习笔记文章标签： Spark通用的大数据计算平台统一的RDD抽象和操作基于内存的迭代式计算 DAG 出色的容错机制

本文为WEL测试原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/henni_719/article/details/77331091

版权

大数据学习笔记专栏收录该内容

72 篇文章 3 订阅

订阅专栏

1.2 Spark大数据处理框架

Spark作为一个通用的大数据计算平台，基于"One Stack to rule them all"的理念成功成为了一体化、多元化的大数据处理平台，轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等，如图1-23所示：

1.2.1 Spark速度为何如此快

1. 统一的RDD抽象和操作

Spark速度快的一个核心原因就是统一的RDD抽象，基于该抽象，使得Spark的框架可轻而易举地使用Spark Core中所有的内容，并且各个框架可以在内存中无缝地集成和完成系统任务。基于统一的技术堆栈，Spark目前已经成为大数据通用计算平台。

2. 基于内存的迭代式计算

Hadoop经典的处理过程，如图1-24所示：

MapReduce在每次执行时都要从磁盘读数据，计算完毕后都要把数据存放在磁盘上，如图1-25所示：

而Spark是基于内存的，执行过程如图1-26所示：

3. DAG(有向无环图)

DAG也是Spark速度快的极为重要的原因，图1-27是一张DAG图示例：

基于DAG，Spark具备非常精致的作业调度系统，如图1-28所示：

DAG中的依赖有宽依赖和窄依赖之分，如图1-29所示：

在DAG图中可以根据依赖对pipeline等进行优化操作，如图1-30所示：

基于RDD和DAG，并行计算整个Job，如果1-31所示：

4. 出色的容错机制

Spark快的另一个原因是其容错机制，基于DAG图，lineage是轻量级且高效的。操作之间相互具备lineage的关系，每个操作只关系其父操作，各个分片的数据之间互不影响，出现错误时只要恢复单个Split的特定部分即可，如图1-32所示：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快

1.2 Spark大数据处理框架 Spark作为一个通用的大数据计算平台，基于"One Stack to rule them all"的理念成功成为了一体化、多元化的大数据处理平台，轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等，如图1-23所示： 1.2.1 Spark速度为何如此快1. 统一的RDD抽象和操作 S
复制链接

扫一扫

专栏目录

WEL测试

CSDN认证博客专家 CSDN认证企业博客

码龄11年

测试领域优质创作者

742: 原创

9509: 周排名

484: 总排名

248万+: 访问

: 等级

2万+: 积分

3700: 粉丝

1500: 获赞

217: 评论

3399: 收藏

私信

关注

热门文章

分类专栏

最新评论

人工智能之Tensorflow批标准化
2401_82997545: 文章写得挺好的，言简意赅，学习到了很多东西，感觉博主分享
【一】TensorFlow神经网络模型构建之神经元函数及优化方法
征途黯然.: I'm impressed by this article about 一TensorFlow神经网络模型构建之神经元函数及优化方法. The expertise is impressive.
【python黑帽子2】netcat.py编写及使用说明
SquidwardZ: 大佬好，我感觉这里可能有点问题： 1. if recv_len < 4096 的作用应该是判断数据是否读完，因为每次读取 4096 的长度，当 recv_len < 4096 时说明没有剩余数据； 2. 您源码中第 47 行的代码块应该是与第 37 行的代码块在书中是同一级缩进的，循环将数据拼接到 response 上，循环结束后再判断它是否为空感觉更合理； 3. 您的代码运行后也有这个问题，就是在使用 -c 参数时，在控制端命令输入后，要多按几次回车才会回显正确的执行结果。我感觉这可能是因为是这样的：第一次执行时，服务端先执行 send(b'BHP:#>')，客户端接收到后，会输出 'BHP:#>' 并等待 buffer 的输入，用户输入后将 buffer 发送给服务端，此时服务端会再次执行 send(b'BHP:#>')，导致客户端还没有接收到上一条命令的结果就需要再次输入新的命令。我的解决方法是将 handle 中的 send(b'<BHP: #> ') 移动到 while(True) 之前。如果有什么不正确的地方大佬勿怪
内网部署ant-design 开发手册
江一铭: 这就是react的是吧，让我试试看
内网部署ant-design 开发手册
江一铭: 好哥哥，有没有react的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WEL测试 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。