Apache Calcite的优化器规则解析
calcite实现的优化器,无论是基于规则的HepPlanner还是基于代价的VolcanoPlanner,它们核心的部分都是要使用规则对关系表达式进行转换。
大部分的可扩展的查询优化系统都会使用规则。规则是一个通用的概念,以一种简单和模块化的方式指定了一种模式,依据关系代数法则对关系表达式进行等价代换。规则使得优化器更加的模块化和易于扩展。
在分析calcite的优化器的优化过程中,详细的了解规则在优化器中是如何匹配关系表达式,如何对关系表达式进行变化等问题是理解优化器优化过程的关键点。
下面分析的代码是基于Apache Calcite的源码1.23.0版本,分析规则在volcanoPlanner优化过程中如何工作的。HepPlanner的规则优化过程流程基本一样,而且更简单。
RelOptRule
在calcite中所有规则类都是派生与基类RelOptRule
。RelOptRule
定义了calcite规则的基本结构和方法。RelOptRule
中包含一个RelOptRuleOperand
的列表,这个RelOptRuleOperand
的列表在规则匹配要变换的关系表达式中有重要作用。RelOptRuleOperand
的列表中的Operand都是有层次结构的,对应着要匹配的关系表达式结构。当规则匹配到了目标的关系表达式后onMatch
方法会被调用,规则生成的新的关系表达式通过RelOptRuleCall
的transform方法让优化器知道关系表达式的变化结果。
RelOptRule的构造函数
public RelOptRule(RelOptRuleOperand operand);
public RelOptRule(RelOptRuleOperand operand, String description)
public RelOptRule(RelOptRuleOperand operand,RelBuilderFactory relBuilderFactory, String description)
对于规则基类提供了上面三个构造函数。其中RelOptRule是最重要的,它要用与判断这个规则是否应该作用于RelNode关系表达式,不可以为null。
RelBuilderFactory是构建关系表达式用的。
RelOptRuleOperand构造函数
protected <R extends RelNode> RelOptRuleOperand(
Class<R> clazz,
RelTrait trait,
Predicate<? super R> predicate,
RelOptRuleOperandChildren children)
<R extends RelNode> RelOptRuleOperand(
Class<R> clazz,
RelTrait trait,
Predicate<? super R> predicate,
RelOptRuleOperandChildPolicy childPolicy,
ImmutableList<RelOptRuleOperand> children)
- clazz: 不可以为空,operand开始匹配时首先会将这个clazz与关系表达式节点RelNode的class进行匹配,为true才能继续后面的匹配逻辑。
- trait: 可以为空,不为空时,RelNode的traitSet要与这个traitSet匹配才能继续后面的匹配规则。
- predicate:自定义的匹配函数,最后只有这个返回true,RelOptRuleOperand的matches才会返回true。
因为关系表达式节点可能有子节点。当你希望某个表达式有符合要求的子节点才匹配时,就需要用到RelOptRuleOperandChildren
里面的operand会去检查子节点是否匹配。
用Rule方法创建Operand
public static <R extends RelNode> RelOptRuleOperand operand(
Class<R> clazz,
RelOptRuleOperand first,
RelOptRuleOperand.<