【bigdata】Hive、SparkSQL是如何决定写文件的数量的
最新推荐文章于 2025-01-24 14:53:51 发布
本文探讨了Hive和SparkSQL在处理数据写入时如何决定文件数量。在Hive中,无shuffle操作时每个插入语句产生一个文件,而有shuffle时文件数量由reduce任务决定。SparkSQL即使无shuffle也可能会产生多个文件,而在shuffle场景下,每个key对应一个写任务,可能导致小文件问题。为解决此问题,Spark2.4.0引入动态规划,通过开启`spark.sql.adaptive.enabled`可优化文件生成,减少小文件数量。
订阅专栏 解锁全文
2714

被折叠的 条评论
为什么被折叠?



