Spark partition详解

最新推荐文章于 2024-05-09 16:51:24 发布

Adobee Chen

最新推荐文章于 2024-05-09 16:51:24 发布

阅读量413

点赞数

分类专栏： spark入门到精通文章标签： spark big data scala

本文链接：https://blog.csdn.net/qq_24186017/article/details/120352339

版权

spark入门到精通专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一：spark读取hdfs分片机制

spark sc.textFile底层调用的是hadoop的代码，所以分片机制也是hadoop的机制

goalSize=totalSize是文件的总字节数/numSplits是有多少个分区，没有配置的话默认 minPartitions=2。就是算每个分区有多少数据
long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
  FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

SPLIT_MINSIZE="mapreduce.input.fileinputformat.split.minsize"
private long minSplitSize = 1;
long blockSize = file.getBlockSize();
long splitSize = computeSplitSize(goalSize, minSize, blockSize);
protected long computeSplitSize(long goalSize, long minSize,
                                     long blockSize) {
  return Math.max(minSize, Math.min(goalSize, blockSize));
}
computeSplitSize方法中当每个分区的数据比blockSize（128M）大时，返回blockSize,当goalSize小，返回goalSize。
 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,
                length-bytesRemaining, splitSize, clusterMap);
            splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                splitHosts[0], splitHosts[1]));
            bytesRemaining -= splitSize;
          }
其中
long bytesRemaining =file.getLen();
private static final double SPLIT_SLOP = 1.1;   // 10% slop
splits=文件长度/splitSize(blockSize或者goalSize) >1.1 来循环的增加分区

Adobee Chen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark partition详解

一：spark读取hdfs分片机制spark sc.textFile底层调用的是hadoop的代码，所以分片机制也是hadoop的机制goalSize=totalSize是文件的总字节数/numSplits是有多少个分区，没有配置的话默认minPartitions=2。就是算每个分区有多少数据long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);long minSize = Math.max(job.getLong(..
复制链接

扫一扫