Spark HadoopRDD读取HDFS文件

最新推荐文章于 2023-10-09 23:34:37 发布

thinktothings

最新推荐文章于 2023-10-09 23:34:37 发布

阅读量1.6w

点赞数

分类专栏： Spark 文章标签： Spark HadoopRDD读取HDFS文件 Spark HadoopRDD 源码分析

本文链接：https://blog.csdn.net/thinktothings/article/details/84934070

版权

Spark HadoopRDD读取HDFS文件

bilibili 视频说明

Spark HadoopRDD读取HDFS文件(bilibili视频) : https://www.bilibili.com/video/av37442139/?p=28

width="800" height="500" src="//player.bilibili.com/player.html?aid=37442139&cid=66303785&page=28" scrolling="no" border="0" allowfullscreen="true">

前置条件

Hadoop版本: Hadoop 2.6.0-cdh5.15.0
Spark版本: SPARK 1.6.0-cdh5.15.0

概述

源码分析Spark HadoopRDD是如何读取HDFS上的文件
分析HadoopRDD预分区的计算方式，非首个分区的开始位置计算
来三种情况分析，不同情部下HadoopRDD的分区计算方式

HDFS数据文件

a b k l j
c a n m o

HDFS 数据文件图解

在这里插入图片描述

HDFS 数据文件图解(对比）

图一

在这里插入图片描述

图二

在这里插入图片描述

断点位置

org.apache.hadoop.mapred.LineRecordReader 241行, 246行, 248行,136行

HadoopRDD partition预划分方式(实际会有小的调整)

每个partition的长度= 文件的总长度 / 最小的分区数(默认分区数为2) //注意，是除，结果会取整, 即 goalSize = totalSize / numSplits
示例中每个partition的长度 = 20 / 2 =10 // 即为10个byte
然后依次从0开始划分10个byte长度为一个partition,最后一个小于等于10个byte的为最后一个partition
所以 parition(0) = hdfs文件(0 + 10) //即从文件偏移量为0开始，共10byte,0 <= 值 < 10
所以 parition(1) = hdfs文件(10 + 10) //即从文件偏移量为10开始，共10byte,10 <= 值 < 20
即 partition(i) = hdfs文件( i * goalSize + 10 )

HadoopRDD partition划分原理

由于需要考虑，每个partition谁先执行是不确定的，所以每个partition执行时，都需要可明确计算当前partition的数据范围
由于直接按partition预划分方式，会把有的一行数据拆分，有些场景不适合(如钱金额，词组一般都不希望被拆分，所以一般按行拆分)
所以需要按行做为最小的数据划分单元，来进行partition的数据范围划分
HadoopRDD是这样划分的partition,还是按partition预划分方式进行预先划分，不过在计算时会进行调整
对于首个partition,也就是partition(0),分区数据范围的开始位置就是从0开始(0 + goalSize )
对于非首个partition，的开始位置需要从新计算，从预划分的当前partition的开始位置开始找第一个换行符位置(indexNewLine),当前partition的开始位置为= indexNewLine + 1,长度还是goalSize
对于首个partition一定能分到数据(只要HDFS文件有数据)
非首个partition,有可能分不到数据的情况，分不到数据的情况，就是数据被上一个partition划分完了

partition分不到数据(以下情况同时满足)

是非首个partition,也就是不是partition为索引为0
partition从预分区开始位置往后读到的第一个换行符大于等于预分区的结束位置
(或者该partition就没有一个换行符)

源码分析

HadoopRdd partition的开始位置计算(文档详情) : https://github.com/opensourceteams/spark-scala-maven/blob/master/md/HadoopRddPartitionDivide.md
HadoopRDD

 override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {
    v

最低0.47元/天解锁文章

thinktothings

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark HadoopRDD读取HDFS文件

Spark HadoopRDD读取HDFS文件

更多资源

bilibili 视频说明

前置条件

概述

HDFS数据文件

HDFS 数据文件图解

HDFS 数据文件图解(对比）

图一

图二

断点位置

HadoopRDD partition预划分方式(实际会有小的调整)

HadoopRDD partition划分原理

partition分不到数据(以下情况同时满足)

源码分析