大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式

武子康

于 2024-08-19 09:32:22 发布

阅读量481

点赞数 10

分类专栏：大数据 Spark 文章标签：大数据 spark scala 分布式系统架构

本文链接：https://blog.csdn.net/w776341482/article/details/141310972

版权

大数据同时被 2 个专栏收录

89 篇文章 4 订阅

订阅专栏

Spark

11 篇文章 0 订阅

订阅专栏

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（正在更新！）

章节内容

上节完成的内容如下：

Spark RDD的依赖关系
重回 WordCount
RDD 持久化
RDD 缓存

在这里插入图片描述

RDD容错机制

基本概念

涉及到的算子：checkpoint，也是Transformation

Spark中对于数据的保存除了持久化操作外，还提供了检查点的机制
检查点本质是通过RDD写入高可靠的磁盘，主要目的是为了容错。检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能。
Lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销
cache和checkpoint是有显著区别的，缓存把RDD计算出来然后放到内存中，但RDD的依赖链不能丢掉，当某个点某个Executor宕机了，上面cache的RDD就会丢掉，需要通过依赖链重新计算。不同的是，checkpoint是把RDD保存在HDFS中，是多副本的可靠存储，此时依赖链可以丢弃，所以斩断了依赖链。

适合场景

DAG中的Lineage过长，如果重新计算，开销会很大
在宽依赖上做checkpoint获得的收益更大

启动Shell

# 启动 spark-shell
spark-shell --master local[*]

checkpoint

// 设置检查点目录
sc.setCheckpointDir("/tmp/checkpoint")

val rdd1 = sc.parallelize(1 to 1000)
val rdd2 = rdd1.map(_*2)
rdd2.checkpoint
// checkpoint是lazy操作
rdd2.isCheckpointed

可以发现，返回结果是False
在这里插入图片描述

RDD 依赖关系1

checkpoint之前的rdd依赖关系

rdd2.dependencies(0).rdd
rdd2.dependencies(0).rdd.collect

我们可以观察到，依赖关系是有的，关系到之前的 rdd1 的数据了：
在这里插入图片描述

触发checkpoint

我们可以通过执行 Action 的方式，来触发 checkpoint
执行一次action，触发checkpoint的执行

rdd2.count
rdd2.isCheckpointed

此时观察，可以发现 checkpoint 已经是 True 了：
在这里插入图片描述

RDD依赖关系2

我们再次观察RDD的依赖关系：
再次查看RDD的依赖关系。可以看到checkpoint后，RDD的lineage被截断，变成从checkpointRDD开始

rdd2.dependencies(0).rdd
rdd2.dependencies(0).rdd.collect

此时观察到，已经不是最开始的 rdd1 了：
在这里插入图片描述

查看checkpoint

我们可以查看对应的保存的文件，查看RDD所依赖的checkpoint文件

rdd2.getCheckpointFile
运行的结果如下图：

RDD的分区

基本概念

spark.default.paralleism: 默认的并发数 2

本地模式

# 此时 spark.default.paralleism 为 N
spark-shell --master local[N]
# 此时 spark.default.paralleism 为 1
spark-shell --master local

伪分布式

x为本机上启动的Executor数
y为每个Executor使用的core数
z为每个Executor使用的内存
spark.default.paralleism 为 x * y

spark-shell --master local-cluster[x,y,z]

分布式模式

spark.default.paralleism = max(应用程序持有Executor的core总数, 2)

创建RDD方式

集合创建

简单的说，RDD分区数等于cores总数

val rdd1 = sc.paralleize(1 to 100)
rdd.getNumPartitions

textFile创建

如果没有指定分区数：

本地文件： rdd的分区数 = max(本地文件分片数，sc.defaultMinPartitions)
HDFS文件：rdd的分区数 = max(HDFS文件block数，sc.defaultMinPartitions)

需要额外注意的是：

本地文件分片数 = 本地文件大小 / 32M
读取 HDFS 文件，同时指定了分区数 < HDFS文件的Block数，指定的数将不会生效

val rdd = sc.textFile("data/1.txt")
rdd.getNumPartitions

RDD分区器

判断分区器

以下RDD分别是否有分区器，是什么类型的分区器

val rdd1 = sc.textFile("/wcinput/wc.txt")
rdd1.partitioner

val rdd2 = sc.flatMap(_.split("\\s+"))
rdd2.partitioner

val rdd3 = rdd2.map((_, 1))
rdd3.partitioner

val rdd4 = rdd3.reduceByKey(_ + _)
rdd4.partitioner

val rdd5 = rdd4.sortByKey()
rdd5.partitioner

分区器作用与分类

在PairRDD(key,value)中，很多操作都是基于Key的，系统会按照Key对数据进行重组，如 GroupByKey
数据重组需要规则，最常见的就是基于Hash的分区，此外还有一种复杂的基于抽样Range分区方法：
在这里插入图片描述

HashPartitioner

最简单、最常用，也是默认提供的分区器。
对于给定的Key，计算HashCode，并除以分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个Key所属的分区ID。
该分区方法可以保证Key相同的数据出现在同一个分区中。
用户可以通过 partitionBy主动使用分区器，通过 partitions参数指定想要分区的数量。

默认情况下的分区情况是：

val rdd1 = sc.makeRDD(1 to 100).map((_, 1))
rdd1.getNumPartitions

执行结果如下图所示：
在这里插入图片描述
执行结果如下图所示，分区已经让我们手动控制成10个了：

val rdd2 = rdd1.partitionBy(new org.apache.spark.HashPartitioner(10))
rdd2.getNumPartitions
rdd2.glom.collect.foreach(x => println(x.toBuffer))

RangePartitioner

简单来说就是将一定范围内的数映射到某个分区内，在实现中，分界的算法尤为重要，用到了水塘抽样算法。sortByKey会使用RangePartitioner。
在这里插入图片描述
进行代码的测试：

val rdd3 = rdd1.partitionBy(new org.apache.spark.RangePartitioner(10, rdd1))
rdd3.glom.collect.foreach(x => println(x.toBuffer))

执行结果如下图所示：
在这里插入图片描述
但是现在的问题是：在执行分区之前其实并不知道数据的分布情况，如果想知道数据的分区就需要对数据进行采样。

Spark中的RangePartitioner在对数据采样的过程中使用了 “水塘采样法”
水塘采样法是：在包含N个项目的集合S中选取K个样本，其中N为1或者很大的未知的数量，尤其适用于不能把所有N个项目都存放到主内存的情况。
在采样过程中执行了 collect() 操作，引发了 Action 操作。

自定义分区器

Spark允许用户通过自定义的Partitioner对象，灵活的来控制RDD的分区方式。
我们需要实现自定义分区器，按照以下的规则进行分区：

分区 0 < 100
100 <= 分区1 < 200
200 <= 分区2 < 300
300 <= 分区3 < 400
…
900 <= 分区9 < 1000

编写代码

package icu.wzk

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

import scala.collection.immutable


class MyPartitioner(n: Int) extends Partitioner {

  override def numPartitions: Int = n

  override def getPartition(key: Any): Int = {
    val k = key.toString.toInt
    k / 100
  }
}

object UserDefinedPartitioner {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("UserDefinedPartitioner")
      .setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")

    val random = scala.util.Random
    val arr: immutable.IndexedSeq[Int] = (1 to  100)
      .map(idx => random.nextInt(1000))

    val rdd1: RDD[(Int, Int)] = sc.makeRDD(arr).map((_, 1))
    rdd1.glom.collect.foreach(x => println(x.toBuffer))

    println("=========================================")

    val rdd2 = rdd1.partitionBy(new MyPartitioner(10))
    rdd2.glom.collect().foreach(x => println(x.toBuffer))
    
    sc.stop()
    
  }

}

打包上传

这里之前已经重复过多次，就跳过了

mvn clean package

运行测试

spark-submit --master local[*] --class icu.wzk.UserDefinedPartitioner spark-wordcount-1.0-SNAPSHOT.jar

可以看到如下的运行结果：
在这里插入图片描述

武子康

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式

上节研究了Spark的RDD的依赖关系、重回WordCount、RDD持久化、RDD缓存。本节研究Spark的RDD的容错机制、RDD的分区，用Scala实现自定义的分区器。Spark允许用户通过自定义的Partitioner对象，灵活的来控制RDD的分区方式。分区 0 < 100100
复制链接

扫一扫

专栏目录