spark学习（二）RDD和DAG

最新推荐文章于 2022-07-19 17:17:59 发布

沼泽鱼97

最新推荐文章于 2022-07-19 17:17:59 发布

阅读量3.2k

点赞数 4

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40535323/article/details/82874525

版权

本文详细介绍了Spark中的基本概念RDD，包括其特性、分区、操作算子及缓存机制。接着深入探讨了DAG的工作原理，如何根据宽窄依赖划分Stage，以及DAG如何优化Spark的任务执行效率。

摘要由CSDN通过智能技术生成

一、sparkRDD概念

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象，有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂，这里只能按我了解的做一些简单介绍。

二、一些基本的熟悉和概念

1、partition

一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量（一个partition对应一个task），影响着程序的并行度。一个RDD是有n个partition组成。

2、operater算子

算子是spark中对一些数据处理的常用操作的抽象，spark算子分为两类：transform和action

transform算子是一种延迟性操作，也就是把一个RDD转换成另外一个RDD而不是马上执行，不会提交job。常用的有：map，flatmap，join，groupBykey等。

action算子会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如 HDFS）中。每有一个action便会提交一个job。常用的有reduce，collect，count，take等。

3、lineage和cache缓存机制

lineage叫做逻辑执行计划，通过DAG（有向无环图）对RDD间关系的建模，描述RDD间的依赖关系࿰

最低0.47元/天解锁文章

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
spark学习（二）RDD和DAG

一、sparkRDD概念RDD（Resilient Distributed Dataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象，有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂，这里只能按我了解的做一些简单介绍。二、一些基本的熟悉和概念1、part...
复制链接

扫一扫

沼泽鱼97 CSDN认证博客专家 CSDN认证企业博客

码龄7年

13: 原创

110万+: 周排名

108万+: 总排名

8万+: 访问

: 等级

628: 积分

69: 粉丝

65: 获赞

4: 评论

290: 收藏

私信

关注

最新评论

Google三大论文（一）BigTable:一个分布式的结构化数据存储系统
panospanay: 链接失效了
JAVA实现UNIX文件管理系统
m0_45172225: 你好有源码吗？可以发我一下嘛谢谢谢谢1728002456@qq.com
JAVA实现UNIX文件管理系统
rememberlm: memerytable.txt文件是自己创建的吗？还有user.txt [code=java] [/code]
spark学习（二）RDD和DAG
小满锅lock: 感觉多个窄依赖是在一个进程中的多个线程中交替进行把，额我不是很记得了哈哈哈

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。