Spark RDD的分区规则详解

Jumanji_

已于 2022-07-12 14:27:19 修改

阅读量4.2k

点赞数 5

分类专栏：大数据框架文章标签： spark

于 2022-03-31 19:48:47 首次发布

本文链接：https://blog.csdn.net/ks_1998/article/details/123880402

版权

大数据框架专栏收录该内容

35 篇文章 22 订阅

订阅专栏

本文详细介绍了Spark RDD的分区规则，包括数据来源、内存数据分区和文件数据分区。在内存数据分区中，数据按设定的并行度进行分区，文件数据分区则根据minPartitions计算分区数，并考虑剩余数据量是否超过标准分区的10%来决定是否增加额外分区。此外，文件数据的分配基于字节偏移量，确保行的完整性。

摘要由CSDN通过智能技术生成

Spark RDD的分区规则

一.RDD中数据来源

2个地方：本地集合或外部数据源

sc.parallelize(本地集合，分区数)
sc.makeRDD(本地集合，分区数) 底层是parallelize
sc.textFile(HDFS/文件夹，分区数) 以行为单位读取数据
sc.wholeTextFiles(HDFS/文件夹，分区数) 以文件为单位，专门读取小文件，结果是元组，第一个元素是文件路径，第二个元素是文件内容

RDD本身是不保存数据的，只保存计算逻辑

二.读取内存数据分区规则

数据可以按照并行度的设定进行数据的分区操作，数据分区规则的
i代表分区的索引，从0开始。length代表本地数据的个数。左闭右开

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
    }

示例

object RddNoKey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Spark_RDD").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(conf);

    val list = ListBuffer[Int]() // 可变List
    list.append(1,2,3,4,5)

    val nums: RDD[Int] = sc.parallelize(list,3)

    nums.saveAsTextFile("./output")
  }
}

集合中有5个元素，length = 5，设置了三个分区那么就会分为三个分区

对于分区0，由计算规则，得 [0,1)，所以分区0存放下标为0的元素1
对于分区1，由计算规则，得 [1,3)，所以分区1存放2和3
对于分区2，由计算规则，的 [3,5)，所以分区2存放4和5

在这里插入图片描述

三.读取文件数据分区规则

3.1 分区数量的计算规则

先说结论：产生的分区数和minPartitions相等或者minPartitions+1

什么时候加1什么时候相等，我们看个例子

我们读取一个文件时，可以设定一个最小分区数minPartitions = 5，不设置的话默认不会超过2
在这里插入图片描述

以文件为单位，看文件有多少个字节！
在这里插入图片描述
那么62/ 5 = 12（Byte）…2 也就说每个分区理论应该放12个字节（标准分区）的数据，但是还余下了2个字节，这时候要根据1.1规则进行判断，如果剩余的分区大于标准分区的10%，则成为一个新的分区，在这里 2 除以 12 = 0.167，所以会产生新的分区