TensorRT 是 NVIDIA 公司针对自家硬件平台推出的一款用于模型加速的 SDK, 优化经过训练的深度学习模型以实现高性能推理。TensorRT 主要从两个方面来提升模型的运行速度:① TensorRT 支持 INT8 和 FP16 的数据格式进行计算,降低 了卷积神经网络模型参数的精度,从而缩短模型的推理时间,达到加速的目的。
②TensorRT 针对 GPU 设备的特性,对网络模型进行重构,把一些网络层例如卷积层、 偏置层和 BN 层等进行合并后再计算,减少了 API 接口调用次数,达到加速的目的。