Spark—RDD依赖&血缘关系

最新推荐文章于 2024-01-24 17:05:54 发布

Jerry Hong

最新推荐文章于 2024-01-24 17:05:54 发布

阅读量805

点赞数 1

分类专栏： Spark 文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_42570840/article/details/125352433

版权

文章目录

Spark—RDD依赖&血缘关系

Spark—RDD依赖&血缘关系

1、RDD 血缘关系

RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage（血统）记录下来，以便恢复丢失的分区。RDD 的 Lineage 会记录 RDD 的元数据信息和转换行为，当该 RDD 的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

val fileRDD: RDD[String] = sc.textFile("input/1.txt")
println(fileRDD.toDebugString)
println("----------------------")
val wordRDD: RDD[String] = fileRDD.flatMap(_.split(" "))
println(wordRDD.toDebugString)
println("----------------------")
val mapRDD: RDD[(String, Int)] = wordRDD.map((_,1))
println(mapRDD.toDebugString)
println("----------------------")
val resultRDD: RDD[(String, Int)] = mapRDD.reduceByKey(_+_)
println(resultRDD.toDebugString)
resultRDD.collect()

2、RDD 依赖关系

依赖关系，其实就是两个相邻 RDD 之间的关系
在这里插入图片描述

3、窄依赖

窄依赖表示每一个父(上游)RDD 的 Partition 最多被子（下游）RDD 的一个 Partition 使用，窄依赖我们形象的比喻为独生子女。

class OneToOneDependency[T](rdd: RDD[T]) extends NarrowDependency[T](rdd

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jerry Hong

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark—RDD依赖&血缘关系

Spark-core中的RDD依赖和血缘关系
复制链接

扫一扫

专栏目录

Spark入门篇——RDD的血缘

真一居士的博客

10-21

1585

目录 RDD的血缘概述划分依赖的背景划分以来的依据窄依赖宽依赖 join的依赖宽依赖窄依赖依赖与Stage的划分 Stage的类别依赖与容错转换算子中间发生失败 DAG的生成总结 RDD的血缘概述 RDD可以从本地集合并行化、从外部文件系统、其他RDD转化得到，能从其他RDD通过Transformation创建新的RDD的原因是R...

Spark SQL 血缘解析方案

最新发布

麦田里的守望者-蒋中洲【相信相信的力量】

06-22

859

瞬间是不是感觉清晰了，可以完美的拿到表和表以及字段和字段的关系，甚至在加工点场景，可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大，在发送到kafka中对存储和带宽都有压力，最后注意：血缘的解析处理，放在该agent端，否则kafka的压力会很大，因为单条消息生产环境下会很大可能有10多mb都有可能。目前这个是最简单的，如果没有特殊的需求，可以直接对Apache Atlas中的hive hook进行裁剪，最终可以得到业务所需的血缘采集插件，一般可以到字段级别血缘。

参与评论您还未登录，请先登录后发表或查看评论

spark RDD的血缘关系

学亮编程手记

06-10

484

SparkCore之RDD之间的依赖关系(血缘)详解

LBJ_小松鼠的博客

01-15

1185

1-什么是依赖关系(血缘关系) 通过构建依赖关系可以实现RDD的容错子RDD依赖于父RDD 2-为什么需要依赖关系因为Spark是基于RDD的并行计算框架 RDD不可变可分区可并行计算的集合通过划分为宽依赖和窄依赖可以在窄依赖过程中实现RDD分区的并行计算但是在宽依赖的部分需要从上一个RDD的不同分区拉取数据，在Shuffle阶段无法实现并行计算 3-依赖关系有几种？窄依赖：NarrowDependency 宽依赖：ShuffleDependency 4-如何判断一个依赖是.

Spark中的血缘关系与依赖

weixin_44563670的博客

01-21

1397

RDD会把之前的依赖关系记录下来，防止在RDD的某一个阶段执行过程中出现问题后，部分分区数据丢失后，无法恢复数据，这是RDD另一个弹性属性，在数据出现问题，重新恢复数据每一个RDD会把它之前的血缘关系记录下来，可以用 rdd.toDebugString 来获取他所有的血缘关系 val fileRDD: RDD[String] = sc.makeRDD(List("scala","Spark","Spark","scala","hello")) println(fileRDD.toDebugStri

Spark的血缘—宽窄依赖

别人笑我太疯癫，我笑他人看不穿。

12-28

583

spark的血缘说的是两个RDD集之间的关系，或者说是父RDD集向子RDD集演化时的状态宽依赖指的是父RDD集任意分区中的数据流向不止一个子RDD集分区窄依赖指的是父RDD集任意分区中的数据流向都一一对应一个子RDD集分区粗糙的理解就是“算子是否触发洗牌”，如果是那么对于spark来说就一定是宽依赖，否则为窄依赖 ...

RDD&SparkCore笔记.docx

07-26

- **延迟计算**：RDD的计算基于血缘关系，只有在触发行动算子时才实际执行计算。 - **持久化**：通过缓存或检查点，可以提高重复计算的效率，减少不必要的数据重建。 4. **RDD的操作** - **转换算子**：如map、...

spark-RDD的特性介绍及源码阅读必备基础

04-07

3. **依赖关系**：RDD可以依赖于其他RDD，形成血缘关系。这种依赖关系定义了RDD的转换历史，使得当某个RDD的计算出错时，可以通过重做依赖它的RDD的计算来恢复。 4. **分区器（可选）**：对于键值对类型的RDD，可以...

【SparkCore篇01】RDD编程入门1

08-04

依赖是指RDD之间的血缘关系，新RDD记录了生成它的旧RDD的转换过程。 RDD的血缘关系分为窄依赖和宽依赖。窄依赖是上游RDD的一个分区只被下游RDD的一个分区使用，这样的依赖结构使得并行计算更高效。而宽依赖则是下游...

spark安装包+spark实验安装软件

06-15

Spark通过Stage划分任务，每个Stage由多个Task组成，任务之间通过RDD的血缘关系（lineage）进行容错。 **5. Spark SQL的使用** Spark SQL可以通过DataFrame API进行数据处理，它允许开发者使用SQL或DataFrame API...

Spark的checkpoint源码讲解

04-09

Checkpoint 和 persist 从根本上不一样：Checkpoint 会将 RDD 数据写到 HDFS 这种安全的文件系统里，并且抛弃了 RDD 血缘关系的记录。即使 persist 存储到了磁盘里面，在 driver 停掉之后会被删除，而 checkpoint ...

大数据之 spark 血缘

代妈炼金术师

01-24

647

Spark通过记录RDD（Resilient Distributed Dataset）或DataFrame/Dataset在执行各种转换操作时生成的新数据集与原数据集之间的关系，构建出一个详细的DAG（Directed Acyclic Graph，有向无环图）。：当某个节点发生故障时，Spark可以根据血缘信息重新计算丢失的数据块，这是因为每个RDD都记录了其父RDD以及创建它的转换操作。总的来说，Spark中的血缘机制是其容错性和性能优化的重要基石，也是实现Spark高性能分布式计算的关键技术之一。

spark封神之路(10)-RDD依赖和血缘

HANG.NIAN

06-21

618

3.3 RDD进阶 3.3.1 RDD依赖关系 3.3.1.1 依赖和血缘依赖和血缘关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。(由于RDD中是不记录数据的,为了实现分布式计算中的容错 , RDD必须记录RDD之间的血缘关系) RDD之间的依赖关系相邻的两个RDD之间

spark2.0原理分析--RDD血缘（RDD Lineage）

zg_hover的专栏

06-13

5730

本文介绍了RDD的血缘基本概念和形成。血缘是由于RDD的转换操作形成的多个RDD的依赖关系。RDD的血缘不依赖数据的计算。每个RDD都有一个依赖的父RDD的引用的列表，通过这个列表来找到依赖的父RDD，多个RDD的依赖形成了一个DAG图（有向无环图）。这就是RDD的血缘（RDD Lineage）。

spark血缘关系与持久化

探索数据奥秘的博客

10-12

440

/** * !!!!! * rdd不保存数据，保存计算逻辑,类似水管子 * 持久化是截留水池的关系 * 避免从血缘最开始的rdd开始计算 */ object Test{ def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount") val sc: SparkContext = new S...

RDD血缘关系源码详解！

06-26

273

一、RDD的依赖关系 RDD的依赖关系分为两类：宽依赖和窄依赖。我们可以这样认为：（1）窄依赖：每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。（2）宽依赖：每个parent RDD partition 被多个 child RDD 的partition 使用。窄依赖每个 child RDD 的 partition 的生成操作都...

图解RDD血缘关系

cnheasy

12-17

1277

需求有三个RDD ,分别是 rddA,rddB,rddC.取数据1,2,3,4,5并且分成三个分区,对输入的数据的每一个数据*2 ,只取大于 6 的数据. 代码 val rddA = sc.parallelize(List(1, 2, 3, 4, 5),3) //rddA: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRD...

spark-sql字段级血缘关系实现

chocolate4的博客

07-01

4620

spark-sql 表字段血缘关系可视化案例

Spark的 RDD 和 RDD血统依赖

weixin_45417821的博客

09-25

350

什么是RDD ? RDD是一个弹性和复原的分步式数据集。可以解决数据容错时的高效性，以及划分任务起到的重要作用。 RDD 是混合型的编程模型, 可以支持迭代计算, 关系查询, MapReduce, 流计算 RDD 不可变，可分区。是只读的 RDD 之间有依赖关系, 根据执行操作的操作符的不同, 依赖关系可以分为宽依赖和窄依赖就是在大量记录上执行的单个文件操作，将创建的RDD的一系列的血缘记录下来，以便恢复丢失的数据，相邻两个RDD之间的关系称为依赖关系，新的RDD依赖旧的RDD，多个连续的RDD 相互依