从源码看Spark读取Hive表数据小文件和分块的问题

最新推荐文章于 2022-12-02 20:05:30 发布

首席数据师

最新推荐文章于 2022-12-02 20:05:30 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/D55dffdh/article/details/84882609

版权

原文链接：https://mp.csdn.net/postedit/82423831

使用Spark进行数据分析和计算早已成趋势，你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题，而之前对此有些模糊，所以做了些整理，希望大家拍砖探讨

前言

有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数，结果发现读取文件的时候Task数并没有改变。遂问我有什么参数可以设置，从而改变读取Hive表时的Task数，将小文件合并大文件读上来

> 本文涉及源码基于Spark2.0.0和Hadoop2.6.0，不同版本代码可能不一致，需自己对应。此外针对TextInputFormat格式的Hive表，其他格式的比如Parquet有Spark自己的高效实现，不在讨论范围之内

分析

Spark读取Hive表是通过HadoopRDD扫描上来的，具体可见 org.apache.spark.sql.hive.TableReader类，构建HadoopRDD的代码如下

val rdd = new HadoopRDD(
sparkSession.sparkContext,
_broadcastedHadoopConf.asInstanceOf[Broadcast[SerializableConfiguration]],
Some(initializeJobConfFunc),
inputFormatClass,
classOf[Writable],
classOf[Writable],
_minSplitsPerRDD)

这里inputFormatClass是Hive创建时指定的，默认不指定为 org.apache.hadoop.mapred.TextInputFormat，由它就涉及到了HDFS文件的FileSplit数，从而决定了上层Spark的partition数。在进入HadoopRDD类查看之前，还有一个参数需要我们注意，就是 _minSplitsPerRDD，它在后面SplitSize的计算中是起了作用的。

我们看一下它的定义

private val _minSplitsPerRDD = if (sparkSession.sparkContext.isLocal) {
0 // will splitted based on block by default.
} else {
math.max(hadoopConf.getInt("mapred.map.tasks", 1),
sparkSession.sparkContext.defaultMinPartitions)

最低0.47元/天解锁文章

首席数据师

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从源码看Spark读取Hive表数据小文件和分块的问题

原文链接：https://mp.csdn.net/postedit/82423831 使用Spark进行数据分析和计算早已成趋势，你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题，而之前对此有些模糊，所以做了些整理，希望大家拍砖探讨前言有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4...
复制链接

扫一扫