为什么Spark运行比MapReduce快

最新推荐文章于 2024-02-20 16:03:48 发布

寞逍遥

最新推荐文章于 2024-02-20 16:03:48 发布

阅读量2.7k

点赞数 3

分类专栏：云计算/大数据文章标签： mapreduce spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenfeng_sky/article/details/122211578

版权

云计算/大数据专栏收录该内容

24 篇文章 2 订阅

订阅专栏

Spark比MapReduce快主要有三点。
IO
Spark和MapReduce的计算都发生在内存中，但是MapReduce通常将计算的中间结果写入磁盘，从而导致了频繁的磁盘IO。
Spark则因为RDD弹性分布式数据集和DAG有向无环图不需要将计算的中间结果写入磁盘，大大减少了磁盘IO。

排序
MapReduce在Shuffle时需要花费大量时间进行排序。
Spark在Shuffle时则只有部分场景才需要排序。

进程、线程
MapReduce采用了多进程模型，多进程模型好处是可以细粒度控制每个任务占用的资源，但mapreduce中的map task和reduce task是进程，每次启动都需要重新申请资源，消耗了不必要的时间。
Spark采用了多线程模型，Spark通过复用线程池中的线程来减少启动、关闭task所需要的开销。（多线程模型会出现资源争用，难以细粒度控制每个任务占用资源）

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
为什么Spark运行比MapReduce快

Spark比MapReduce快主要有三点。IOSpark和MapReduce的计算都发生在内存中，但是MapReduce通常将计算的中间结果写入磁盘，从而导致了频繁的磁盘IO。Spark则因为RDD弹性分布式数据集和DAG有向无环图不需要将计算的中间结果写入磁盘，大大减少了磁盘IO。排序MapReduce在Shuffle时需要花费大量时间进行排序。Spark在Shuffle时则只有部分场景才需要排序。进程、线程MapReduce采用了多进程模型，多进程模型好处是可以细粒度控制每个任务占用
复制链接

扫一扫

专栏目录

寞逍遥 CSDN认证博客专家 CSDN认证企业博客

码龄15年

25: 原创

10万+: 周排名

21万+: 总排名

20万+: 访问

: 等级

1678: 积分

32: 粉丝

67: 获赞

6: 评论

391: 收藏

私信

关注

热门文章

分类专栏

ElasticSearch 3篇
邮件协议 1篇
协议
Hive 4篇
Spark 1篇
MapReduce 1篇
操作系统 1篇
FusionInsight 1篇
Postgresql 4篇
Kafka 3篇
眼睛
PowerDesigner 1篇
云计算/大数据 24篇
HTML
Java script
Oracle
Kettle 2篇
Java 2篇
Linux 12篇
招投标 1篇
工具 9篇
Nifi 9篇
Mysql 2篇
Phoenix 4篇
LibrA 4篇
HBase 3篇

最新评论

何为时间戳？时间戳的由来
~~LoCloudy~~: 68年的转化成秒就是32位系统的存储上限了
何为时间戳？时间戳的由来
情谊|手中沙: 萌新提问为什么相除是68最长时间间隔就是68年啊？？？
Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的对比）
数据小匠leven: 赞，明白了很多
什么是异构数据？
ctotalk: 学习了
Huawei Libra数据库常用语句
寞逍遥: [code=sql] CREATE TABLE tpcds.customer_address ( ca_address_sk integer NOT NULL , ca_address_id character(16) NOT NULL , ca_street_number character(10) , ca_street_name character varying(60) , ca_street_type character(15) , ca_suite_number character(10) , ca_city character varying(60) , ca_county character varying(30) , ca_state character(2) , ca_zip character(10) , ca_country character varying(20) , ca_gmt_offset numeric(5,2) , ca_location_type character(20) ) TABLESPACE example1 DISTRIBUTE BY HASH (ca_address_sk) PARTITION BY RANGE (ca_address_sk) ( PARTITION P1 VALUES LESS THAN(5000), PARTITION P2 [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。