spark java 写入hdfs_解决Spark Streaming写入HDFS的小文件问题

最新推荐文章于 2022-07-03 20:06:27 发布

文木禾

最新推荐文章于 2022-07-03 20:06:27 发布

阅读量1k

点赞数

文章标签： spark java 写入hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28853079/article/details/114359171

版权

今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.block.size的文件。如果有大量小文件的话，会浪费block，使元数据增加，挤占宝贵的NameNode内存。另外，大文件能够发挥磁盘顺序读写的优势，小文件会产生很多随机读写，性能下降。在我们的数仓体系中，有一部分业务的日志数据来源是RocketMQ。我们...

摘要由CSDN通过智能技术生成

今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。

我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.block.size的文件。如果有大量小文件的话，会浪费block，使元数据增加，挤占宝贵的NameNode内存。另外，大文件能够发挥磁盘顺序读写的优势，小文件会产生很多随机读写，性能下降。

在我们的数仓体系中，有一部分业务的日志数据来源是RocketMQ。我们编写了Spark Streaming程序作为consumer，将这些日志下沉到以天分区的Hive外部表中，批次间隔(batch duration)为1分钟。久而久之，产生了很多小文件。直觉上讲可以通过增长batch duration来减少输出，但这肯定是下下策。

实在更不动了，明天继续吧(╯‵□′)╯︵┻━┻

感觉稍微好了一些，继续写。我们用两种方法合并解决该问题，十分有效，下面简要叙述下。

利用coalesce()和repartition()算子

在真正落盘之前，可以对RDD做如下两种操作之一：

rdd.coalesce(1, true)

rdd.repartition(1)

Spark Streaming在将结果输出到HDFS时是按分区来的，分区越多，产生的小文件自然也越多。coalesce()算子就用来为RDD重新分区，其源码如下，位于RDD类中。

def coalesce(numPartitions: Int, shuffle: Boolean = false,

partitionCoalescer: Option[PartitionCoalesc

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark java 写入hdfs_解决Spark Streaming写入HDFS的小文件问题

今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.block.size的文件。如果有大量小文件的话，会浪费block，使元数据增加，挤占宝贵的NameNode内存。另外，大文件能够发挥磁盘顺序读写的优势，小文件会产生很多随机读写，性能下降。在我们的数仓体系中，有一部分业务的日志数据来源是RocketMQ。我们...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。