spark学习 - Spark体系结构和源代码解析

Spark简介

在这里插入图片描述

Spark简介

  • 什么是Spark?
  • Spark是基于内存计算的通用大规模数据处理框架
  • Spark已经融入了Hadoop生态系统,可支持的作业类型和应用场景比MapReduce更为广泛,并且具备了MapReduce所有的高容错性和高伸缩性特点。
    在这里插入图片描述

为何会诞生Spark?

  • 回顾MapReduce
    • 并不是所有的问题都可以简单的分解成Map和Reduce两步模型处理
      在这里插入图片描述
  • MapReduce缺点
    • 延时高 ✗
      • Example:不适合交互式SQL分析
    • 迭代计算力不从心 ✗
      • Example:斐波那契数列
    • 流式数据处理 ✗
      • Example:统计网站PV、UV数据
  • Spark
    • 一站式解决
      • 离线批处理 ✓
      • 流式计算 ✓
      • 在线实时分析 ✓
        在这里插入图片描述

Spark为何快?

MapReduce

  • MapReduce会将中间结果输出到本地磁盘
    • 例如Shuffle时Map输出的中间结果
      在这里插入图片描述
  • 有多个MapReduce任务串联时,依赖HDFS存储中间结果的输出
    • 例如执行Hive查询
      在这里插入图片描述
  • MapReduce在处理复杂DAG时会带来大量的数据copy、序列化和磁盘I/O开销
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值