RDD 依赖关系

气质&末雨

已于 2023-02-04 14:32:12 修改

阅读量198

点赞数

分类专栏： spark 文章标签： spark 大数据 scala

于 2023-02-03 11:13:28 首次发布

本文链接：https://blog.csdn.net/m0_72168501/article/details/128862237

版权

spark 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

RDD 依赖关系

RDD 依赖关系

1、RDD血缘关系

1) 血缘关系说明

RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的 Lineage 会记录 RDD 的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。
在这里插入图片描述

2) 血缘关系的作用

RDD 是不会保存数据的，如果出错了怎么办呢，没有数据找不到数据的源头，想重新执行一次都不行，所以RDD为了提供容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关系将数据源重新读取进行计算。
相当于是没有保存数据，保存了逻辑操作。
在这里插入图片描述

3) 代码示例

toDebugString 这个方法可以打印出每一步血缘关系，注意不是依赖关系，依赖关系只是相邻的两个，血缘关系是连续的。

package com.atguigu.bigdata.spark.core.wc.Dep

import org.apache.spark.{SparkConf, SparkContext}

//这个包是依赖关系的，可能内容有点少
class Spark01_RDD_Dep {

}
object Spark01_RDD_Dep{
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val context = new SparkContext(conf)
    val rdd = context.textFile("datas/two.txt")
    println(rdd.toDebugString) //这个方法会打印血缘关系，说的不是依赖，依赖是相邻两个，这个是连续多个

    val mapRDD = rdd.flatMap(_.split(" "))
    println(mapRDD.toDebugString)
    val mapRDD2 = mapRDD.map((_, 1))
    println(mapRDD2.toDebugString)
    val result = mapRDD2.reduceByKey(_ + _)
    println(result.toDebugString)
    result.collect().foreach(println)
    context.stop()
  }
}