直接写数据到HDFS时,我们不可避免的要处理小文件问题,一般有
1.落地之前增大batch(即增大了延迟)
2.coalesce(分区合并)
3.外部程序Merge
4.Append(如果文件没有达到指定大小,下一个批次写数据的时候不创建新文件,而是和已存在的小文件合并)
四种方式,各有其使用场景,如论哪种方式,无疑会增加我们的工作量。但是如果通过hudi
写入数据,小文件的问题hudi
自身会帮你解决,hudi
自身解决的方案是`方法4
【大数据开发】HDFS小文件合并四种方式
最新推荐文章于 2023-12-26 17:20:57 发布