spark创建RDD的分区策略

最新推荐文章于 2024-01-21 03:40:33 发布

Amos_Mu

最新推荐文章于 2024-01-21 03:40:33 发布

阅读量262

点赞数

分类专栏：面试题文章标签： spark

本文链接：https://blog.csdn.net/mys_35088/article/details/116163929

版权

面试题专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了集合数据的分区方法，包括通过partitions方法按比例切分，并使用slice进行索引操作。同时，详细阐述了文件读取后的分区规则，如默认分区数量和自定义分区数的设定，以及根据文件总字节数计算分区大小的逻辑。此外，讨论了数据在分区中存放的位置，强调了数据读取时以偏移量为单位，以及如何计算偏移量范围。

摘要由CSDN通过智能技术生成

1.集合数据是如何分区的

0 until 3 是从0到3并不包含3
List(1,2,3,4,5) 长度为5 分区数量为3
(1).partitions方法参数为数组长度分区数量
(2).迭代是0 until 3 即0，1，2
(3).将0，1，2变成tuple（start，end）
a. start= （i*数组长度）/分区数量
b. end=（（i+1）*数组长度）/分区数量
(4).slice（from，until）从from开始 until结束（不包含）注意：slice是数组下标

2.文件读取之后文件的分区规则 textfile

(1).默认最小分区为2 math.min(defaultParallelism,2)
(2).如果不想用默认分区数量，可以通过 textfile 的第二个参数指定分区数
(3).分区数量的计算方式：
totalSize = 7 总字节数
goalSize = 7 / 2 = 3 byte 三个字节一个分区

7 / 3=2....1 （ 1/3 > 1.1%所以要再进行分区）总共分三个分区。

3.数据在分区中存放的位置

   a.spark读取文件，底层其实使用的就是Hadoop的读取方式，所以是一行一行读取，和字节数没有关系
   b.数据读取时以偏移量为单位
   c.数据分区的偏移量范围的计算{字节数除以分区数商就是每个分区的偏移量数}

(1).偏移量
1234567@@=>012345678
89@@=>9 10 11 12
0=> 13
(2).偏移量的范围
[0,7]=>1234567
[7,14]=>890

Amos_Mu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark创建RDD的分区策略

1.集合数据是如何分区的 0 until 3 是从0到3并不包含3 List(1,2,3,4,5) 长度为5 分区数量为3 (1).partitions方法参数为数组长度分区数量 (2).迭代是0 until 3 即0，1，2 (3).将0，1，2变成tuple（start，end） a. start= （i*数组长度）/分区数量 b. end=（（i+1）*数组长度）/分区数量 ...
复制链接

扫一扫

专栏目录