Presto Hive数据源Split的生成

最新推荐文章于 2024-03-06 15:59:11 发布

王飞活

最新推荐文章于 2024-03-06 15:59:11 发布

阅读量1.4k

点赞数

分类专栏： presto 文章标签：大数据 presto

本文链接：https://blog.csdn.net/wangfeihuo/article/details/122272492

版权

presto 专栏收录该内容

64 篇文章 12 订阅

订阅专栏

本文解析了Presto中如何根据Hive.max-split-size生成split，重点讲解了BackgroundHiveSplitLoader和HiveSplitSource中split策略。详细介绍了文件切割规则和非切割情况下split的处理方式。

摘要由CSDN通过智能技术生成

presto中生成split的基本原理是：

1. presto先扫描所有所有需要访问的hdfs的数据文件，如果hdfs文件比hive.max-split-size(默认64M) 大，则一个文件生成一个split.

其代码实现在于BackgroundHiveSplitLoader::loadSplits中，loadSplits会扫描分区的所有文件，每个文件创建一个InternalHiveSplit，提交到HiveSplitSource中异步生成真正的HiveSplit。

2. 在HiveSplitSource中，如果文件不可切割的话，则无论文件大大小多大都只生成一个split，如果可以切割而且文件大于hive.max-split-size，则对文件进行切割成多个split，每个split最大处理hive.max-split-size大小的数据，其实现代码在于：

public CompletableFuture<ConnectorSplitBatch> getNextBatch(ConnectorPartitionHandle partitionHandle, int maxSize)
{
     ....

     if (internalSplit.isSplittable()) {
           splitBytes = min(maxSplitBytes, block.getEnd() - internalSplit.getStart());
     }
     else {
           splitBytes = internalSplit.getEnd() - internalSplit.getStart();
     }
     resultBuilder.add(new HiveSplit())
     internalSplit.increaseStart(splitBytes);
     ....
}

王飞活

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Presto Hive数据源Split的生成

presto中生成split的基本原理是： 1. presto先扫描所有所有需要访问的hdfs的数据文件，如果hdfs文件比hive.max-split-size(默认64M) 大，则一个文件生成一个split.其代码实现在于BackgroundHiveSplitLoader::loadSplits中，loadSplits会扫描分区的所有文件，每个文件创建一个InternalHiveSplit，提交到HiveSplitSource中异步生成真正的HiveSplit。 2. 在Hi...
复制链接

扫一扫