Spark系列——了解Spark

最新推荐文章于 2024-04-30 07:14:08 发布

Python伊甸园

最新推荐文章于 2024-04-30 07:14:08 发布

阅读量196

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42830697/article/details/104559141

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spark系列——了解Spark

一、什么是Spark?

1.Spark是一个分布式的并行计算框架。

2.Spark是下一代的map-reduce，扩展了MR的数据处理流程。

3.MR存在的问题：

(1)调度慢，启动map、reduce太耗时

MR:map进程，reduce进程

spark:executor进程

10个线程：8 map task(线程) 2 reduce(线程)

进程慢，线程快，spark只用申请一次进程，而MR申请多次。

(2)计算慢，每一步都要保存中间结果落磁盘

MR: map->reduce的中间结果在磁盘

spark: map->reduce的中间结果在磁盘(默认)【除非cache一下指定到内存】

(3)API抽象简单，只有map和reduce两个原语

MR:需要通过脚本把map和reduce穿起来，如果项目中有较多的数据处理，写脚本比较费劲，需要画流程图再写脚本。

Spark:通过map和reduce等算子就能将数据串在一起。

(4)缺乏作业流描述，一项任务需要多轮MR

4.spark与MR的内存比较：

8 map 1G，2个reduce 1G
MR：如果执行map执行完，去看yarn这个任务运行的资源情况
这个任务会占用多少资源？2G

spark：1个executor 10G
8 map 1G ，2个reduce 1G
8个map执行完，资源占用情况？
10G

MR进程用完会释放，但是Spark只有1个executor，只要map或者reduce没有执行完成就会占用整个的资源。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。