spark RDD textFile算子 分区数量详解

在这里插入图片描述进入textFile原码
发现 分区数量调用 hadoopFile中的TextInputFormat类,传入参数Key为LongWritable即偏移量,value为Text,
由此得知是通过这个类来读取

继续进入TextInputFormat类中
在这里插入图片描述发现有个是否可以切分的判断,可以知道 一些不可拆分的文件由此过滤掉,可以切片拆分的文件继续往下寻找却没有相关处理逻辑 ,所以我们向上去到父类FileInputFormat中

在这里插入图片描述找到如上逻辑,调用了listStatu与namenode交互获取文件属性,把要读取的文件总长度计算出来 totalSize

在这里插入图片描述下面找到一个关键变量goalSize他的值为所有文件总长度除以默认最小分区数,
中间过程不一一赘述,关键代码在computeSplitSize
进入computeSplitSize中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值