Tensorrt笔记(二)
TensorRT是英伟达针对自家平台做的加速包,TensorRT主要做了这么两件事情,来提升模型的运行速度。
- 1、TensorRT支持INT8和FP16的计算。深度学习网络在训练时,通常使用 32 位或 16 位数据。TensorRT则在网络的推理时选用不这么高的精度,达到加速推断的目的。
- 2、TensorRT对于网络结构进行了重构,把一些能够合并的运算合并在了一起,针对GPU的特性做了优化。现在大多数深度学习框架是没有针对GPU做过性能优化的,而英伟达,GPU的生产者和搬运工,自然就推出了针对自己GPU的加速工具TensorRT。一个深度学习模型,在没有优化的情况下,比如一个卷积层、一个偏置层和一个reload层,这三层是需要调用三次cuDNN对应的API,但实际上这三层的实现完全是可以合并到一起的,TensorRT会对一些可以合并网络进行合并。我们通过一个典型的inception block来看一看这样的合并运算。
TensorRT用来做模型的推理优化,也是有Python接口的,实际使用测试下来,python接口的模型推理速度C++基本差不多的。这里较为详细的记录TensorRT python接口从环境的配置到模型的转换,再到推理过程,还有模型的INT8量化,有时间的话也一并总结记录了,笔者使用的版本是TensorRT7.0版本,此版本支
本文详细介绍了如何使用TensorRT的Python接口进行模型优化和推理,包括TensorRT如何通过INT8和FP16计算及网络结构重构来提升推理速度,环境配置,模型转换为ONNX,动态和静态尺寸推理的步骤。此外,还提到了Python与C++推理速度相当,并提供了转换和推理的代码示例。
订阅专栏 解锁全文
python 测试&spm=1001.2101.3001.5002&articleId=125364345&d=1&t=3&u=1fb7d9ad8cb249b39d588da931aab5e9)
1万+

被折叠的 条评论
为什么被折叠?



