一、如何避免小文件问题 1、在最终输出数据时,减少 Task 的数目 2、如果存在 Shuffle,可以通过 Adaptive Query Execution(AQE) 动态调整 partition 的数量 3、如果不存在 shuffle,在代码端通过repartition的方法进行重分区然后再通过write的方式来减少 partition 的数量 4、Hudi 提供的一个非常重要的特性是自动管理文件大小,而不用用户干预,使用 Hudi 提供的小文件合并功能避免小文件问题