文章分两部分
1 基于impala的sql执行优化过程
2 Impala+kudu架构的数据仓库经验分享
第一部分,sql调优
1.老生常谈,sql调优必看执行计划,无论是hive还是impala。查看impala的执行计划可以说比较详细,分为三个粒度,分别是:explain、summary、profile。
(1) impala-shell中执行explain sql,会打印sql语句的执行计划,每一步的解释如下图所示:
优点:查看执行计划,调整sql语句
缺点:不清楚sql的执行详情,调整sql语句只能凭经验
(2) 在sql执行完成后,执行summary可以 看到这条sql语句执行时所消耗的时间和资源的情况,还有Impala预估的资源使用
执行summary语句后打印情况如下图:
优点:明确sql每个阶段的执行时间以及资源占