spark学习 - Spark体系结构和源代码解析

最新推荐文章于 2021-06-25 11:33:16 发布

-无妄-

最新推荐文章于 2021-06-25 11:33:16 发布

阅读量815

点赞数

分类专栏： Spark学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bingdianone/article/details/88013827

版权

Spark简介

在这里插入图片描述

Spark简介

什么是Spark？
Spark是基于内存计算的通用大规模数据处理框架
Spark已经融入了Hadoop生态系统，可支持的作业类型和应用场景比MapReduce更为广泛，并且具备了MapReduce所有的高容错性和高伸缩性特点。

为何会诞生Spark？

回顾MapReduce
- 并不是所有的问题都可以简单的分解成Map和Reduce两步模型处理
MapReduce缺点
- 延时高 ✗
  - Example：不适合交互式SQL分析
- 迭代计算力不从心 ✗
  - Example：斐波那契数列
- 流式数据处理 ✗
  - Example：统计网站PV、UV数据
Spark
- 一站式解决
  - 离线批处理 ✓
  - 流式计算 ✓
  - 在线实时分析 ✓

Spark为何快？

MapReduce

MapReduce会将中间结果输出到本地磁盘
- 例如Shuffle时Map输出的中间结果
有多个MapReduce任务串联时，依赖HDFS存储中间结果的输出
- 例如执行Hive查询
MapReduce在处理复杂DAG时会带来大量的数据copy、序列化和磁盘I/O开销

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark学习 - Spark体系结构和源代码解析

文章目录Spark简介Spark简介Scala编程基础Spark体系结构和源代码解析Spark编程模型Spark内存模型Spark案例介绍Spark简介Spark简介什么是Spark？Spark是基于内存计算的通用大规模数据处理框架Spark已经融入了Hadoop生态系统，可支持的作业类型和应用场景比MapReduce更为广泛，并且具备了MapReduce所有的高容错性和高伸缩性特点。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。