llvm后端之SelectionDag源码分析
引言
llvm后端指令选择主要是class SelectionDAGISel的子类实现。整个过程将llvm IR转为有向无环图节点,通过系列替换合并,最终生成目标相关的DAG。最后再将目标DAG通过td规则匹配成目标指令MachineInstr。
llvm后端支持三种指令选择:
- SelectionDagISel : SDAG指令选择
- FastISel : 快速指令选择
- GlobalISel :全局指令选择
注:本文重点介绍SDAG实现,参考源码路径为 https://github.com/llvm/llvm-project/tree/release/10.x
1 主要流程
1.1 参数降级
参数降级,由SelectionDAGISel::LowerArguments(const Function &F)实现。其主要过程如下:
- 首先,构建TargetLowering::LowerFormalArguments方法的Ins参数;
- 调用由TargetLowering子类重写的LowerFormalArguments方法;
- 将Ins参数中打散成寄存器粒度的节点合并为参数分拆类型节点,由ISD::BUILD_PAIR节点合并;
构建Ins参数:
- 当函数不能降级return,则会插入一个存返回地址的额外参数。
- 对于每个参数通过ComputeValueVTs函数计算每个参数的IR类型转换后的EVT类型;再对每个EVT类型,通过TargetLowering子类可重写的getRegisterTypeForCallingConv和getNumRegistersForCallingConv方法计算分配的需要分配的寄存器类型和个数,并构建ISD::InputArg放入Ins参数中;
注1 :ComputeValueVTs是根据IR阶段的Type类型生成EVT类型,过程中会对结构体和数组展开为基本类型,所以是一对多生成EVT类型;
注2 :getRegisterTypeForCallingConv和getNumRegistersForCallingConv是TargetLowering子类可重写方法,用于计算每个参数需要寄存器类型和个数。每个基本类型占用一个或多个寄存器。
调用LowerFormalArguments方法:
- 该方法由TargetLowering子类重写,用于计算参数拆分到寄存器粒度后,对应的SDValue节点;
- 以RISCV为例,其实现主要是借助class CCState实现参数寄存器分配或参数栈分配;
注:一般地,在参数寄存器还可以分配的时候,会优先使用CCState::AllocateReg分配参数寄存器;否则才会通过CCState::AllocateStack分配栈空间。
合并参数寄存器:
- 对LowerFormalArguments返回的SDValue节点,通过ISD::BUILD_PAIR合并成更大类型,也就是ComputeValueVTs分拆的EVT类型;
- 然后,通过ISD::MERGE_VALUES将ComputeValueVTs分拆的EVT类型以参数为粒度合并为一个节点;
1.2 构建DAG
在对于每个基本块执行SelectionDAGISel::SelectBasicBlock方法,在该方法内对每个指令调用SelectionDAGBuilder::visit构建DAG。其主要流程如下:
- 如果IR指令是终结指令,通过SelectionDAGBuilder::HandlePHINodesInSuccessorBlocks对后继节点使用该基本块为输入值的PHI指令转为寄存器拷贝;
- 通过SelectionDAGBuilder::visit(unsigned Opcode, const User &I)方法对指令进行生成DAG操作,该方法通过switch将不同的IR指令XXInst,转为调用visitXXInst方法。例如CallBrInst则调用SelectionDAGBuilder::visitCallBr方法;
- 最后,对一些特殊的IR指令做一些后处理。
处理每个PHI后继节点:
- 对每个后继节点使用了该基本块作为输入的PHI指令,取其为PHI单独分配的寄存器;
- 记录PHI替换指令与对应拆分的源寄存器号的对应关系。
注1:为PHI指令分配寄存器是在SelectionDAGISel::runOnMachineFunction调用FuncInfo->set方法完成的。在该方法内部会FunctionLoweringInfo的InitializeRegForValue为PHI指令分配目的寄存器;最后再调用BuildMI创建一个目标的PHI指令,并将目的寄存器添加进去。
注2 :PHI指令的源寄存器是在SelectionDAGISel::FinishBasicBlock方法中通过建立的映射关系添加的。
AllocaInst转DAG
- 首先,通过指令的数组维度乘以类型大小,最后加上对其长度;
- 最后,通过生成ISD::DYNAMIC_STACKALLOC节点,即栈分配节点;
ReturnInst转DAG
CallInst转DAG
1.3 类型合法化
类型合法化是在DAGTypeLegalizer::run中完成的,它在向量合法化前后都会执行。主要有如下步骤:
- 初始化Worklist,将叶子节点加入,并setNodeId为ReadyToProcess,即0; 非叶子节点设置为Unanalyzed,即-2;然后进入while循环处理Worklist中的节点;
- 在while开始处,于是先合法化节点输出类型,跳转到NodeDone处理;
- 在NodeDone段中,将处理节点的使用节点的NodeId设置为操作数个数减1,最后等所有操作数的输出值都合法化后,便将其加入到Worklist中;最后回到while开始处继续;
- 大多数节点不需要处理操作数,因为操作数依赖的节点输出类型已经先行类型合法化。对于一些特殊节点(例如输出本身合法、没有输出值、register/TargetConstant节点),则会进入ScanOperands段对操作数类型合法化;
注:整个类型合法化依赖TargetLoweringBase::computeRegisterProperties初始化设置
TargetLowering::TypePromoteInteger
- 该枚举会将int类型上提到合法的长度类型;
- 处理输出值合法化时,通过DAGTypeLegalizer::PromotedIntegers成员记录原输出SDValue与转换后的输出SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue替换;
TargetLowering::TypeExpandInteger
- 该枚举会将不支持的过长int类型分拆为两个更小的长度类型;
- 处理输出值合法化时,通过DAGTypeLegalizer::ExpandedIntegers成员记录原输出SDValue与转换后的两个分拆输出SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
注:TypeExpandInteger与TypePromoteInteger不同的时,经过一次TypeExpandInteger可能还不是合法类型
TargetLowering::TypeSoftenFloat
- 该枚举是当硬件不支持某类型浮点运算时,先将其转同长度int,然后由软件实现模拟浮点运算。即调用软件实现的libcall;
- 处理输出值合法化时,通过DAGTypeLegalizer::SoftenedFloats成员记录原输出SDValue与转换后输出的SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypeExpandFloat
- 该枚举是将较大类型拆分为两个较短类型,与TypeSoftenFloat一样,两个较短类型的运算也是由软件模拟实现;
- 处理输出值合法化时,通过DAGTypeLegalizer::ExpandedFloats成员记录原输出SDValue与转换后的两个分拆节点SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypePromoteFloat
- 该枚举将较小的不合法浮点类型上提到较大的浮点类型,它只是进行类型转换,不会软件模拟;
- 处理输出值合法化时,通过DAGTypeLegalizer::PromotedFloats成员记录原输出SDValue与转换后输出SDValue的映射
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypeScalarizeVector
- 该枚举是当向量只有一个元素时,直接使用元素类型操作;
- 它通过DAGTypeLegalizer::ScalarizedVectors记录转换映射;
TargetLowering::TypeSplitVector
- 该枚举是将一个较长向量拆分为两个维度较短向量;
- 它通过DAGTypeLegalizer::SplitVectors记录转换映射;
TargetLowering::TypeWidenVector
- 该枚举将一个较短向量扩展为维度较大的向量。扩展的元素用undef初始化,通过ISD::CONCAT_VECTORS合并为一个较大向量;
- 它通过DAGTypeLegalizer::WidenedVectors记录转换映射;
1.4 向量合法化
类型合法化是在VectorLegalizer::Run中完成的;在Run中如果DAG中至少有一个节点使用了向量类型,则会对每个DAG节点调用VectorLegalizer::LegalizeOp。LegalizeOp方法的主要有如下步骤:
- 当节点已经合法化后,则直接返回VectorLegalizer::LegalizedNodes成员缓存的合法化后的节点。否则,继续;
- 递归调用LegalizeOp对节点的操作数合法化,并通过DAG.UpdateNodeOperands替换掉当前节点的操作数。后续处理节点输出值转换;
- 对load和store节点做特别处理。如果load节点是向量类型且为扩展load类型、或store节点是向量类型且是截断存储,则会根据TargetLowering::getLoadExtAction返回值作不同处理(Custom则会调用TargetLowering子类重写的LowerOperation方法、Expand则会调用VectorLegalizer::ExpandLoad/ExpandStore);
- 对于其他节点类型,只要操作数或输出值类型只要有一个向量类型,则进行通用处理。通用节点处理共分为三步:
通过TargetLowering::getOperationAction获取节点的action(有些是根据输出值,有些是根据输入值);
根据action作不同的处理:为Promote枚举调用VectorLegalizer::Promote方法、为Custom枚举调用TargetLowering子类重写的LowerOperation方法、为Expand枚举调用VectorLegalizer::Expand方法;
在VectorLegalizer::LegalizedNodes成员中,建立节点的输出值到转换后的输出节点的映射缓存(如果没有转换则缓存当前节点)。
注:整个向量合法化依赖TargetLowering::setOperationAction和TargetLowering::setLoadExtAction初始化设置
VectorLegalizer::ExpandLoad
- 对于Load的内存源类型是字节对齐(存储对齐)的、或其向量长度为1,则会通过TargetLowering::scalarizeVectorLoad处理Load节点。它会将对向量的Load分拆为单个元素的Load,并通过ISD::BUILD_VECTOR将Load值合并为一个向量;
- 对于Load的内存源类型不是字节对齐的、且其向量长度大于1,则会分拆为目标指针类型大小Load(不够分拆则按幂退大小),然后经过系列位操作组合元素,最后再将元素通过ISD::BUILD_VECTOR合并为一个向量
VectorLegalizer::ExpandStore
- 通过TargetLowering::scalarizeVectorStore处理;
- 如果store节点的内存类型不是字节对齐的,则将每个向量元素截断为单个元素内存类型,再零扩展为与整个向量内存类型等bit长度的int类型,然后通过移位和ISD::OR合并为一个值,最后生成新的store节点存储合并的值;
- 如果store节点的内存类型是字节对齐的,则对每个元素截断存储为单个元素的内存类型,最后通过ISD::TokenFactor组合为一个节点。
VectorLegalizer::Promote
- 除了少数节点需要单独处理,大多数节点根据TargetLowering::getTypeToPromoteTo获取节点输出值的上提类型,然后重新生成相关操作节点;最后,通过ISD::BITCAST或ISD::FP_ROUND上提前的原类型;
VectorLegalizer::Expand
- 一部分节点需要单独处理,例如ISD::MERGE_VALUES,将合并的值分拆返回便是;
- 其他节点则通过SelectionDAG::UnrollVectorOp展开向量,本质上对向量的操作展开为相应位置的元素操作,最后再通过ISD::BUILD_VECTOR合并成一个向量。
1.5 DAG合法化
DAG合法化是最后一个合法化阶段,它在SelectionDAG::Legalize中完成,它会不断通过SelectionDAGLegalize::LegalizeOp对每个节点合法化,直到所有节点都不再需要合法化结束。SelectionDAGLegalize::LegalizeOp的主要流程如下:
- 在LegalizeOp中,同样会对Load和Store单独处理,会分别调用SelectionDAGLegalize::LegalizeLoadOps / LegalizeStoreOps进行处理;
- 对其他节点,先通过TargetLowering::getOperationAction获取LegalizeAction;再通过action不同做不同处理:
为Legal,不处理;
为Custom,调用TargetLowering子类重写的LowerOperation方法;
为Promote,则调用SelectionDAGLegalize::PromoteNode处理;
为Expand,则调用SelectionDAGLegalize::ExpandNode处理;
为LibCall,则调用SelectionDAGLegalize::ConvertNodeToLibcall处理;
SelectionDAGLegalize::LegalizeLoadOps
- 对于非扩展的Load节点,根据输出值类型调用TargetLowering::getOperationAction,根据返回值不同处理不同。
- 对于扩展的Load节点,如果内存源类型没有字节对齐,且内存源类型不为MVT::i1或i1的getLoadExtAction返回为Promote行为,则将内存源类型上提到字节对齐类型生成新扩展Load,最后按未上提的内存源类型扩展输出值。
后续则是内存源类型字节对齐、或内存源类型为MVT::i1且i1的getLoadExtAction不为Promote行为; - 对于扩展的Load节点,如果内存源类型位宽为2的幂次方,则根据大小端分拆为两个扩展Load,最后再通过移位操作合并为大类型;
- 对于扩展的Load节点,如果内存源类型位宽不是2的幂次方(隐含条件字节对齐),调用TargetLowering::getLoadExtAction,根据返回值不同处理方式不同;
注:TargetLowering::expandUnalignedLoad用于处理不支持对齐的Load。对浮点或向量的不合法内存源类型,会拆分为寄存器类型粒度分别从栈上load;对于其他类型(例如int)拆分为两个更小的长度类型load,再通过位操作合并为一个节点
SelectionDAGLegalize::LegalizeStoreOps
- 非截断store节点,根据待存储值类型调用TargetLowering::getOperationAction,根据返回值不同处理不同。
- 截断store节点,如果内存类型为非字节对齐,则将内存类型上提到字节对齐类型;同时,对存储值超过的位截断为0;再重新生成新截断store节点;
- 截断store节点,如果内存类型字节对齐且位宽为2的幂次方,则根据大小端分拆为两个较小类型存储;最后通过ISD::TokenFactor合并为一个节点;
- 截断store节点,如果内存类型字节对齐但位宽不是2的幂次方,根据内存类型调用TargetLowering::getTruncStoreAction,根据返回值不同处理方式不同;
SelectionDAGLegalize::PromoteNode
- 根据节点第0个输出类型获取上提类型,特别地,一些特殊节点是根据操作数的类型获取上提类型;
- 根据节点类型不同作不同处理,以ISD::MUL为例,对操作数全部扩展为上提类型,再对输出值截断为上提前的类型;
- 最后,通过ReplaceNode函数将引用原节点的use关系替换为Results(此外还会将新节点添加到更新列表),一般Results个数为1;
SelectionDAGLegalize::ExpandNode
- 根据节点类型不同,作不同处理:以ISD::MERGE_VALUES为例,直接将合并的值取出来放到Results中;
- 最后,通过ReplaceNode函数将引用原节点的use关系替换为Results(此外还会将新节点添加到更新列表)。其内部实现是调用SelectionDAG::ReplaceAllUsesWith实现的,Results数组代表的是每个原节点的输出值;
SelectionDAGLegalize::ConvertNodeToLibcall
- 根据节点类型不同,调用不同的Libcall转换,并将节点加入到Results列表;
- 最后与PromoteNode和ExpandNode一样,通过ReplaceNode替换原节点的输出值;
1.6 DAG合并
从构建DAG开始每个阶段完成后都要进行一次DAG合并,通过调用DAGCombiner::Run实现DAG合并。其主要流程如下:
- 首先将所有节点加入Worklist中,然后进入while循环处理;
- 如果当前节点没有被引用,则通过recursivelyDeleteUnusedNodes函数向上检索并删除没有使用的节点(其实前面的几个阶段也有无用节点的删除);
- 如果AtLevel大于等于阶段AfterLegalizeDAG(即合法化DAG之后),则再次通过SelectionDAGLegalize::LegalizeOp对当前节点进行DAG合法化,并将全部新转换的节点添加到Worklist中;
- 将当前节点加入CombinedNodes缓存中,并把当前节点的每个还没加入到CombinedNodes缓存的操作数节点加入到Worklist中,最后调用DAGCombiner::combine执行真正的节点合并;
- 如果DAG合并后返回的节点发生了变化(即不等于合并前的节点),将引用原节点的引用关系替换为引用新节点,并将新节点和引用它的节点添加到Worklist;
- 通过recursivelyDeleteUnusedNodes从原节点向上检索并删除没有使用的节点,然后继续下一轮循环
函数DAGCombiner::combine实现真正的DAG合并,主要流程如下:
- 首先,调用DAGCombiner::visit执行标准合并,会根据节点类型不同,作不同的合并策略;
- 如果visit后没有返回新节点(即没有合并处理)、且原节点的操作类型为自定义类型或TargetLowering::hasTargetDAGCombine返回目标可以合并,则调用TargetLowering子类重写的PerformDAGCombine方法;
- 如果至此还没有合并处理,则对特定节点类型执行合并操作。具体由DAGCombiner的四个方法处理:PromoteIntBinOp、PromoteIntShiftOp、PromoteExtend、PromoteLoad;
- 如果至此还没有合并处理、且TargetLowering可重写的isCommutativeBinOp方法返回该节点是可以交换的操作(例如加法可交换、减法不可交换)、且原节点输出值个数为1,那么对于两个操作数不同、且第0个操作数是常量或第1个不是常量,那么就试图从缓存中找到交换两个操作数后的节点返回。这种替换的隐含条件是llvm除了load/store外都是ssa形式;
DAGCombiner::visit
- 在visit中根据不同节点操作类型,调用不同函数;
- 以ISD::ADD为例,它会操作尽量合并或者说折叠,例如a + 3 + 6 -> a + 9、add x, undef -> undef、(add Z, C & sub C, Z -> Z等;
调用PerformDAGCombine方法
- 该方法由TargetLowering子类重写,实现目标平台对节点的特殊合并处理;
- 以RISCV处理RISCVISD::SplitF64为例:
当节点第0个操作数为RISCVISD::BuildPairF64,直接调用DCI.CombineTo将BuildPairF64节点的两个操作数替换SplitF64节点;
当节点第0个操作数为ConstantFPSDNode,将浮点类型转int,再拆分为两个32位int常量,最后调用DCI.CombineTo将两个32位常量替换当前SplitF64节点;
如果节点第0个操作数节点的类型为ISD::FNEG、且该节点只有当前SplitF64节点一个引用,则先新生成输出int32类型的SplitF64,然后取出两个输出值(第0个对应f64低字节部分、第1个对应f64高字节部分), 再通过APInt::getSignMask取出32位符号数置1、其余位置0的整数SignBit,并且将SignBit与f64高字节部分通过ISD::XOR节点将符号位取反、其余位保持不变,最后将f64低字节部分和符号位取反的高字节部分替换原节点;
如果节点第0个操作数节点的类型为ISD::FABS、且该节点只有当前SplitF64节点一个引用,与FNEG类似操作,只是转换逻辑不一样;
注:DCI.CombineTo最终调用DAGCombiner::CombineTo,内部会用新节点引用替换旧节点引用。并将新引用节点及其使用者节点添加到DAGCombiner::Worklist成员中
DAGCombiner::PromoteIntBinOp
- 如果当前阶段是在向量合法化之前(即AtLevel< AfterLegalizeVectorOps),则不合并处理;
- 如果当前节点输出值为向量类型或非int类型,则不合并处理;
- 通过调用TargetLowering子类可重写的isTypeDesirableForOp得出平台可以支持该节点对应的输出类型,则不合并处理;
- 通过调用TargetLowering子类可重写的IsDesirableToPromoteOp得出平台希望对该节点的输出该类型上提,则进行如下处理:
将该节点两个操作数上提为输出类型的上提类型;
用两个操作数重新生成该节点,并通过ISD::TRUNCATE截断为上提前的输出类型
把旧节点操作数节点和新节点加入到DAGCombiner::Worklist中;
同时从DAGCombiner::Worklist种移除旧节点;
DAGCombiner::PromoteIntShiftOp
- 如果当前阶段是在向量合法化之前(即AtLevel< AfterLegalizeVectorOps),则不合并处理;
- 如果当前节点输出值为向量类型或非int类型,则不合并处理;
- 通过调用TargetLowering子类可重写的isTypeDesirableForOp得出平台可以支持该节点对应的输出类型,则不合并处理;
- 通过调用TargetLowering子类可重写的IsDesirableToPromoteOp得出平台希望对该节点的输出该类型上提,则进行如下处理:
将该节点第0个操作数(移位操作的值),上提为输出类型的上提类型;
重新生成移位操作节点,并通过ISD::TRUNCATE截断为上提前的输出类型;
把旧节点操作数节点和新节点加入到DAGCombiner::Worklist中;
同时从DAGCombiner::Worklist种移除旧节点;
DAGCombiner::PromoteExtend
- 如果当前阶段是在向量合法化之前(即AtLevel< AfterLegalizeVectorOps),则不合并处理;
- 如果当前节点输出值为向量类型或非int类型,则不合并处理;
- 通过调用TargetLowering子类可重写的isTypeDesirableForOp得出平台可以支持该节点对应的输出类型,则不合并处理;
- 通过调用TargetLowering子类可重写的IsDesirableToPromoteOp得出平台希望对该节点的输出该类型上提,则进行如下处理:折叠多次扩展为一次扩展(不过llvm 10中该处应该有BUG,代码与注释不一致)
DAGCombiner::PromoteLoad
- 如果当前阶段是在向量合法化之前(即AtLevel< AfterLegalizeVectorOps),则不合并处理;
- 与前几个Promote不同的是:PromoteLoad还不会处理地址索引模式MemIndexedMode不为UNINDEXED的Load节点;
- 如果当前节点输出值为向量类型或非int类型,则不合并处理;
- 通过调用TargetLowering子类可重写的isTypeDesirableForOp得出平台可以支持该节点对应的输出类型,则不合并处理;
- 通过调用TargetLowering子类可重写的IsDesirableToPromoteOp得出平台希望对该节点的输出该类型上提,则进行如下处理:
用上提类型重新生成ExtLoad,再截断为原类型;
用新生成的节点输出值替换旧节点的被引用关系;
把旧节点操作数节点和新节点加入到DAGCombiner::Worklist中;
同时从DAGCombiner::Worklist种移除旧节点;
2 目标实现
实现SDAG指令选择
- 实现TargetLowering子类:将其实例化注册到Subtarget的子类中通过重写的getTargetLowering方法返回TargetLowering引用。重点是实现TargetLowering子类
- 实现SelectionDAGISel子类:先实现TargetPassConfig子类,并重写addInstSelector方法;在addInstSelector中添加SelectionDAGISel子类实现。
实现快速指令选择
实现全局指令选择
2.1 TargetLowering
2.1.1 子类构造
2.1.2 并行性
-
isSDNodeSourceOfDivergence
用于判断DAG节点是否是分歧指令的起点。所谓分歧可以理解多线程执行后续的指令流会出现不一致,例如线程1会进入if;线程2会进入else。 -
isSDNodeAlwaysUniform
表示节点输出具备统一恒定性。例如AMDGPU中的Load节点,对于AMDGPUAS::CONSTANT_ADDRESS_32BIT地址空间的数据load是具备恒定的,因为该地址空间的数据运行后不会更改;其他空间不具备,包括CONSTANT_BUFFER_0到CONSTANT_BUFFER_15地址空间的数据也不具备恒定性,因为运行过程中可能修改;
2.1.3 地址索引
所谓地址索引是指++var、–var、var++、var–这类操作。另外,前面这四类是每次递增一个类型长度,理论上llvm后端的递增索引可以每次递增多个类型长度。
-
getPreIndexedAddressParts
将DAG节点合法化为一个前加/减地址索引方式; -
getPostIndexedAddressParts
将DAG节点合法化为一个后加/减地址索引方式; -
isIndexingLegal
判断给出的地址索引方式是否在目标上合法;
2.1.4 跳转表
-
getJumpTableEncoding
返回switch…case跳转地址的编码方式,类型为枚举MachineJumpTableInfo::JTEntryKind(EK_BlockAddress为绝对块地址、EK_GPRel64BlockAddress/EK_GPRel32BlockAddress为相对全局偏移表GOT基地址的偏移地址、EK_LabelDifference32为相对跳转表基地址的偏移地址、EK_Custom32表示由TargetLowering子类重写LowerCustomJumpTableEntry方法自定义编码、EK_Inline表示类似arm的TBB指令一样将跳转表内联到指令后边); -
LowerCustomJumpTableEntry
当getJumpTableEncoding返回EK_Custom32,由子类重写该函数。实现返回跳转表每个表项的符号表达式。