底层整体运行体系
伯克利
Spark优点
为什么要用scala来搞spark
强大的并发,兼容java
Spark与hadoop对比
hadoop缺点
它抽象成MR表达能力不行
磁盘开销太大
延迟高,任务执行分成两级了,map阶段全部完成才能启动第二阶段
写磁盘io开销太大,对算法,逻辑回归不友好,不适合做迭代运算
反观 Spark呢?
基于内存,做迭代操作不需要反复写磁盘
Spark与Hadoop执行流程对比
MapReduce与Spark对比
spark节省了磁盘的开销也节省了序列化和反序列化的开销
MapReduce是进程,Spark是线程的方式,Spark实时性很高.
以上来自B站林子雨课程,我自己做了点学习补充