为了模型推理的加速,我们需要将模型在TensorRT上进行部署,这里我们讨论模型来自PyTorch的情况。部署有多种不同的方式,下面分别进行说明:
1. PyTorch“原型”部署
这里的原型指的是原始模型部署,即模型不经过压缩和优化。这种情况的部署方式主要有两种:
1.1 通过ONNX部署
图1 PyTorch--ONNX部署整体流程图
详细可以参考文档《如何将模型从 PyTorch 转换为 TensorRT 并加速推理》。
为了模型推理的加速,我们需要将模型在TensorRT上进行部署,这里我们讨论模型来自PyTorch的情况。部署有多种不同的方式,下面分别进行说明:
这里的原型指的是原始模型部署,即模型不经过压缩和优化。这种情况的部署方式主要有两种:
图1 PyTorch--ONNX部署整体流程图
详细可以参考文档《如何将模型从 PyTorch 转换为 TensorRT 并加速推理》。