记录下最近遇到的问题
最近集群迁移 cdh to cdp 一个脚本在cdp impala中跑不出结果,也不报错,进度也显示100%
查看执行计划也并无发生异常,全是小表数据量不大
最后实在没有办法求助大佬,大佬看了几眼,让我去查看源表在两个集群的数据量差异,然后说可能是表的数据有问题造成了笛卡尔积之类的,然后观察表的数据量后发现有一个码表的数据量重复了100+个分区(而在cdh上只有一个分区)造成了数据量级翻倍所以一直跑不出来。
我当时就给大佬拍了一吨的马屁,持续输出了一个小时,最后大佬告诉我:
大佬原话:
impala跑得慢几种情况 :
1)表数据量大
2)不合理的关联方式导致内存爆满或者网络io超高
3)数据量成量级暴涨,导致问题1