Spark 源码解读04---（文件生成的）rdd的分区数据划分

最新推荐文章于 2021-12-22 19:28:47 发布

一年又半

最新推荐文章于 2021-12-22 19:28:47 发布

阅读量143

点赞数

分类专栏： spark 文章标签： spark scala big data

本文链接：https://blog.csdn.net/qq_34446614/article/details/120045258

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

2.4、从外部存储（文件）创建rdd的数据如何划分

代码案例

val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")
val sc = new SparkContext(conf)
// 读取本地文件
val readline = sc.textFile("input/1.txt")
readline.collect.foreach(println)

源码解读

/*
假设字节数为 7 默认分区数为 2：
goalSize = 7 / 2 -->  3byte
再根据goalSize计算实际分区数:
实际分区个数 = 7 / 3  --> 2 余数为 1 ; 1/3 = 0.33 
所以实际分区数为： 2 + 1 = 3
*/
/*
如上3个分区 每个分区有3个字节
每个分区的根据文件的起始偏移量来划分
0: [0,3]
1: [3,6]
2: [6,7]
还要注意：如果某个分区刚刚截取到一行的中间，那么他将会把整行都放在该分区中，
因为hadoop读取分区是一行一行的读取，下一个分区将会从下一行开始读取。
*/

总结

文件创建rdd 的数据划分根据每个分区的根据文件的起始偏移量来划分，切数据是一行一行的读取，如果某个分区刚刚截取到一行的中间，那么他将会把整行都放在该分区中。

2.1、从集合中创建rdd的分区个数

2.2、从集合中创建rdd的分区数据如何划分

2.3、从外部存储（文件）创建rdd的个数

2.4、从外部存储（文件）创建rdd的数据如何划分

一年又半

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark 源码解读04---（文件生成的）rdd的分区数据划分

2.4、从外部存储（文件）创建rdd的数据如何划分代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 读取本地文件val readline = sc.textFile("input/1.txt")readline.collect.foreach(println)源码解读/*假设字节数为 7 默认分
复制链接

扫一扫