-
hive.stats.fetch.column.stats导致reduce个数划分太小
有一个任务,在混部集群默认开启,导致任务reduce个数太小,只启了2个reducetask,而maptask中读取的数据又很大,使得大量数据都写到这2个reduce task中,任务最终失败,在关闭这个参数后,可以启动1100个reducetask。
怎么发现这个问题的:
对比执行计划,在开启这个参数后,hive 认为只会读取50000多行数据,而实际上是几十亿

hive cbo优化引起的bug
最新推荐文章于 2024-11-20 15:21:09 发布
文章讨论了Hive中的stats.fetch.column.stats参数如何导致在混部集群环境下,由于任务reduce个数设置过小(默认为2),当map任务处理大量数据时,任务因资源不足而失败。通过对比执行计划发现,开启该参数后,Hive误估了数据量,实际是几十亿行。关闭该参数后,reduce任务数量显著增加至1100个,解决了问题。
470

被折叠的 条评论
为什么被折叠?



