深度学习项目六:TensorRT来加速YOLO v5推理与检测
文章目录
TensorRT简介
TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。
TensorRT 是一个C++库,从 TensorRT 3 开始提供C++ API和Python API,主要用来针对 NVIDIA GPU进行 高性能推理(Inference)加速。
基本特性:
用于高效实现已训练好的深度学习模型的推理过程的SDK
内含推理优化器和运行时环境
使DL模型能以更高吞吐量和更低的延迟运行
有C++和python的API,完全等价可以混用
TensorRT主要做了以下几点来加快推理速度:
算子融合
量化
动态张量显存
内核自动调整
多流执行