Spark比MapReduce快的原因

最新推荐文章于 2024-01-31 11:22:42 发布

Kazi_1024

最新推荐文章于 2024-01-31 11:22:42 发布

阅读量882

点赞数 2

分类专栏： Spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42322454/article/details/128263688

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Spark比MapReduce快的原因

① Spark支持DAG

每个MapReduce只有两个阶段：Map、Reduce
Spark支持DAG，可以有任意多个阶段

② Spark的Shuffle更智能

MR的Shuffle过程一定会经过分区、排序、分组这几个过程
Spark有多种Shuffle机制，过程不是固定的，灵活选择

③ Spark的Task是线程级别

MR将Task分为两种进程：MapTask进程结束，再启动ReduceTask进程【JVM重用】
Spark的进程只有一种，只申请一次，所有任务都以Task的方式直接分配在进程中运行

区别	MapReduce	Spark
计算流程结构	1个Map +1个Reduce，每步结果都必须进入磁盘	支持DAG，一个程序中可以有多个Map、Reduce过程，多个Map之间的操作可以直接在内存中完成
Shuffle 过程	分区、排序、分组	会根据具体的操作来经过不同的过程
Task运行方式	进程：MapTask、ReduceTask	进程只启动一次：所有Task都以线程方式存在，不需要频繁启动、申请资源

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark比MapReduce快的原因

Spark比MR更快的原因有三点，分别是① Spark支持DAG② Spark的Shuffle更智能③ Spark的Task是线程级别
复制链接

扫一扫

专栏目录

Kazi_1024 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

39万+: 周排名

49万+: 总排名

9万+: 访问

: 等级

847: 积分

58: 粉丝

176: 获赞

43: 评论

335: 收藏

私信

关注

热门文章

分类专栏

Git 2篇
Java 1篇
Linux 7篇
Hive 4篇
Spark 10篇
Hadoop 9篇
面试 6篇
Python 5篇
Vue 4篇
JS 3篇

最新评论

path.join()与path.resolve()区别
May Y D: 看到最后一句眼前一黑，很炸裂的文字
el-dialog嵌套的影响、原因及解决方法
倒装8: 最后一段代码怎么做到内层加了append-to-body却同级显示的
深拷贝和浅拷贝的区别及实现方法
山原旷其盈视: 扩展运算符如果对象里面都是基本类型的话，应该是深拷贝吧，博主看见回复一下，咱们探讨探讨
Shuffle的作用以及MapReduce的Shuffle过程
靓仔写sql: 翻了那么多文章，这边的mapreduce说的听清楚的，不过我还有个疑问就是这个split是按什么切片的呢？
Spark的宽窄依赖
m0_73611990: 你是我的神

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。