spark学习之路1：概述

最新推荐文章于 2022-10-18 23:11:23 发布

hzp666

最新推荐文章于 2022-10-18 23:11:23 发布

阅读量135

点赞数

分类专栏： spark 文章标签：大数据 spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzp666/article/details/116593225

版权

spark 专栏收录该内容

54 篇文章 9 订阅

订阅专栏

1.spark为什么比hadoop快

1.基于内存，中间值不用落磁盘

2.DAG有向无环图

ps: hadoop主要包含两部分： MapReduce和 HDFS

spark 其实优化的只是 hadoop的 MapReduce，

那么 MapReduce最大的诟病

1.MapReduce 把任务分为两段， map阶段和 reduce阶段，而reduce阶段必须要等所有的map阶段都完成后，才能执行。

那么问题就来了，reduce一定要等所有map都执行完成，造成时间的浪费。

2.磁盘开销大

map计算好的结果是写入磁盘的，reduce从磁盘读取再计算。

那么这个就会导致磁盘IO开销特别大。

3.MapReduce是把所有的任务都解释为了两个函数 map函数和 reduce函数，限制了其他类型函数

spark优化添加了其他函数：

2.用Scala来开发 spark程序的优点

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。