宏观了解hadapood和spark

最新推荐文章于 2024-11-17 23:54:03 发布

daoyang1024

最新推荐文章于 2024-11-17 23:54:03 发布

阅读量195

点赞数

分类专栏：复习文章标签： hadoop spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/juyuyh/article/details/115299890

版权

复习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

相关知识

物联网等感知技术将数据产生的速度推到顶峰
大数据的关键技术主要发生在
- 数据存储与管理(分布式存储)
- 数据处理与分析(分布式处理)

大数据计算模式

批处理计算(量大)
流计算(量不大,连续不断,及时响应)
图计算(图结构数据)
查询分析计算

在这里插入图片描述

大数据处理生态

hadoop是一个生态系统(mapreduce思想:分而治之)

在这里插入图片描述

spark是一个单纯的计算框架,和hadoop里的mapreduce(分布式计算框架)对等

hadoop的分布式文件系统是完全没问题的

在这里插入图片描述

在这里插入图片描述

spark改进

提供了更多的操作类型(不止map,reduce操作),表达能力更强
内存计算
有向无环图的任务调度机制(使很多操作可以流水线话操作)

spark生态系统,基本概念,架构设计

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

RDD运行原理

在这里插入图片描述

RDD加载后就不能修改,只能在转换的过程中来修改,转换后又不能修改

RDD操作分为:动作类型操作,转换类型操作,这两种操作都是粗粒度操作(不能对单条记录操作)

惰性调用机制

转换类型操作只记录转换轨迹,直到动作类型时才触发计算

在这里插入图片描述

流水线操作可以加速

流水线的中间结果直接持久化在了内存,避免了磁盘i/o的同时,避免了数据的序列化和反序列化

DAG图可以保证高效的容错性

RDD的宽依赖&窄依赖

在这里插入图片描述

只要发生shuffle的一定会写磁盘,是宽依赖,不发生shuffle的是窄依赖
窄依赖可以进行流水线优化(fork/join,避免无效等待)
宽依赖无法进行流水线优化

阶段生成

遇到窄依赖一直加,形成流水线操作,进行流水线优化
遇到宽依赖生成新的阶段

在这里插入图片描述

RDD运行过程

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。