【Spark三十九】Spark比Hadoop速度快的原因总结

最新推荐文章于 2023-08-19 17:17:07 发布

axxbc123

最新推荐文章于 2023-08-19 17:17:07 发布

阅读量1.7k

点赞数

分类专栏： Spark 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/axxbc123/article/details/84699870

版权

Spark 专栏收录该内容

109 篇文章 11 订阅

订阅专栏

Spark的速度比Hadoop快将近100倍，原因都有哪些，本文进行归纳总结

Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，见http://www.cnblogs.com/hseagle/p/3673138.html
Broadcast机制
Cache
Checkpoint
Spark的计算模型

Hadoop每次计算先写磁盘，下次计算先从磁盘读，计算结果再写磁盘，如此往复。这对于迭代计算，是个噩梦

-----Spark为每个应用程序在worker上开启一个进程，而一个Job中的Task会在同一个线程池中运行，而Hadoop Map Reduce的计算模型是每个Task(Mapper或者Reducer）都是一个单独的进程，启动停止进程非常expensive，同时，进程间的数据共享也不能基于内存，只能是HDFS。
Spark任务调度模型
- -----一级调度DAGScheduler
- -----二级调度TaskScheduler

容错性
Shuffle方面的性能提升？

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Spark三十九】Spark比Hadoop速度快的原因总结

Spark的速度比Hadoop快将近100倍，原因都有哪些，本文进行归纳总结 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，见http://www.cnblogs.com/hseagle/p/3673138.htmlBroadcast机制CacheCheckpointSpark的计算模型 Hadoop...
复制链接

扫一扫

专栏目录

axxbc123 CSDN认证博客专家 CSDN认证企业博客

码龄10年

324: 原创

-: 周排名

103万+: 总排名

15万+: 访问

: 等级

1196: 积分

57: 粉丝

23: 获赞

11: 评论

115: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Hadoop十九】HDFS权限设置
Ocean_Hai22: 还有明明是在core-site.xml配置的`fs.permissions.umask-mode`,你这不是误人子弟吗？幸亏我有判别能力，不被你牵着走
【Hadoop十九】HDFS权限设置
Ocean_Hai22: 默认情况下，用户在HDFS上创建的文件和目录的权限是rwxr-xr-x，即732，x表示有ls权限 --- 这不应该是755吗？
【Spark八十四】Spark Streaming中DStream和RDD之间的关系
斯沃福德: batch好像没有分布式的性质？
【Flume一】Flume入门
KKKKezia: 请问exec命令当中，excited with 0或者2是什么意思？还有下一句for语句市一定要在linux操作系统中执行吗？
【Java】Java执行远程机器上Linux命令
woomoony: 大哥，你pom 不贴出来的吗、

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。