今天仍然处于感冒状态,打开电脑随便写一篇,然后滚回床上休息。
我们都知道,在HDFS中不宜存储大量的小文件。所谓小文件,就是大小远小于dfs.block.size的文件。如果有大量小文件的话,会浪费block,使元数据增加,挤占宝贵的NameNode内存。另外,大文件能够发挥磁盘顺序读写的优势,小文件会产生很多随机读写,性能下降。
在我们的数仓体系中,有一部分业务的日志数据来源是RocketMQ。我们编写了Spark Streaming程序作为consumer,将这些日志下沉到以天分区的Hive外部表中,批次间隔(batch duration)为1分钟。久而久之,产生了很多小文件。直觉上讲可以通过增长batch duration来减少输出,但这肯定是下下策。
实在更不动了,明天继续吧(╯‵□′)╯︵┻━┻
感觉稍微好了一些,继续写。我们用两种方法合并解决该问题,十分有效,下面简要叙述下。
利用coalesce()和repartition()算子
在真正落盘之前,可以对RDD做如下两种操作之一:
rdd.coalesce(1, true)
rdd.repartition(1)
Spark Streaming在将结果输出到HDFS时是按分区来的,分区越多,产生的小文件自然也越多。coalesce()算子就用来为RDD重新分区,其源码如下,位于RDD类中。
def coalesce(numPartitions: Int, shuffle: Boolean = false,
partitionCoalescer: Option[PartitionCoalesc