spark 读取 hdfs 数据分区规则

最新推荐文章于 2024-08-10 16:51:27 发布

哥伦布112

最新推荐文章于 2024-08-10 16:51:27 发布

阅读量1k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/u013939918/article/details/107619013

版权

本文介绍了Spark在读取HDFS中parquet文件或Hive表时的分区规则。当`spark.sql.hive.convertMetastoreParquet`为true时，使用FileSourceScanExec，它根据数据总大小、默认并行度和最大分区字节来优化分区。反之，使用HiveTableScanExec则基于文件数量和大小进行分区。具体来说，FileSourceScanExec会计算bytesPerCore来确定分区大小，而HiveTableScanExec的分区数可能与HDFS块大小和小文件数量相关。

摘要由CSDN通过智能技术生成

下文以读取 parquet 文件 / parquet hive table 为例：

hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParquet 控制，默认为 true。

如果设置为 true ，会使用 org.apache.spark.sql.execution.FileSourceScanExec ，否则会使用 org.apache.spark.sql.hive.execution.HiveTableScanExec。

FileSourceScanExec
前者对分区规则做了一些优化，如果文件是：

没有分桶的情况

分区大小计算公式：

bytesPerCore = totalBytes / defaultParallelism
maxSplitBytes = Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))
1
2
defaultMaxSplitBytes：spark.sql.files.maxPartitionBytes，默认为128M，每个分区读取的最大数据量
openCostInBytes: spark.sql.files.openCostInBytes，默认为4M，小于这个大小的文件将会合并到一个分区，可以理解为每个分区的最小量，避免碎文件造成的大量碎片任务。
defaultParallelism: spark.default.parallelism，yarn默认为应用cores数量或2。
bytesPerCore：数据总大小 / defaultParallelism
eg. 读入一份 2048M 大小的数据

Tip: pa