目录
1.什么是TensorRT?
`TensorRT` 是 NVIDIA 官方推出的基于 `CUDA` 和 `cudnn` 的高性能深度学习推理加速引擎,能够使深度学习模型在 `GPU` 上进行低延迟、高吞吐量的部署。采用 `C++` 开发,并提供了 `C++` 和 `Python` 的 API 接口,支持 TensorFlow、Pytorch、Caffe、Mxnet 等深度学习框架,其中 `Mxnet`、`Pytorch` 的支持需要先转换为中间模型 `ONNX` 格式。截止到 2021.4.21 日, `TensorRT` 最新版本为 `v7.2.3.4`。
2.延迟和吞吐量
+ 延迟 (`Latency`): 指执行一个操作所花的时间。
+ 吞吐量 (`Throughput`): 在单位时间内,可执行的运算次数。
3.模型在线部署
在做深度学习的实验的时候,比如使用 `Pytorch` 框架训练出一个模型,那么推理的时候也会直接使用 `Pytorch` 框架 `test`,但是在工业界这是不可能的,因为其推理速度很慢,所以我们必须有专门