Spark(23)-Spark设计及Spark基本运行原理简介以及与Hadoop的对比

文章探讨了Spark作为大数据处理框架相对于Hadoop的优点,包括基于内存的计算减少磁盘IO,适合迭代运算,以及使用Scala语言实现的强大并发能力。同时,提到了Hadoop的缺点,如MR表达能力有限,磁盘开销大,延迟高等问题。Spark通过线程方式提供更高的实时性,节省了序列化成本。
摘要由CSDN通过智能技术生成

底层整体运行体系

伯克利

 

Spark优点

 为什么要用scala来搞spark

 

 强大的并发,兼容java

 

Spark与hadoop对比

hadoop缺点

它抽象成MR表达能力不行

磁盘开销太大

延迟高,任务执行分成两级了,map阶段全部完成才能启动第二阶段

写磁盘io开销太大,对算法,逻辑回归不友好,不适合做迭代运算

反观 Spark呢?

 基于内存,做迭代操作不需要反复写磁盘

 Spark与Hadoop执行流程对比

 

 MapReduce与Spark对比

spark节省了磁盘的开销也节省了序列化和反序列化的开销

MapReduce是进程,Spark是线程的方式,Spark实时性很高. 

以上来自B站林子雨课程,我自己做了点学习补充

[3.4]--Spark生态系统_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值