TensorRT工作流程
1、转换和部署模型5个基本步骤
step1:获取模型
step2:选择batchsize
step3:选择精度
step4:模型转换
step5:模型部署
2、转换模型的3个主要选择
使用TF-TRT
易于使用,可以避免自己写插件层,未达到最佳效率,TF-TRT 通常比直接使用 ONNX 或 C++ API 慢
使用trtexec转换 ONNX
最高效,使用trtexec,不支持的层要自己写插件层
使用TensorRT网络定义 API
用C++ API 或 Python API 手动构建网络具有最佳性能和可定制性
3、部署模型的3个主要选择
使用Tensorflow部署
TF-TRT 通常比直接使用 ONNX 或 C++ API 慢
使用独立的 TensorRT 运行时 API
C++ API 通常是运行 TensorRT 引擎的性能最高的选项,开销最少
Python API您可以接受一些性能开销,主要好处是数据预处理和后处理 易于使用,因为您可以使用各种库,如 NumPy 和 SciPy。
使用 NVIDIA Triton 推理服务器
您想通过 HTTP 或 gRPC 为您的模型提供服务