一,框架介绍 二,FasterTransformer 中的优化 2.1,OP融合(也叫算子融合) 2.2,自回归模型/激活缓存的推理优化 2.3,使用 MPI 和 NCCL 实现节点间通信并支持模型并行性 2.4,低精度推理