TensorRT教程1：优化原理

最新推荐文章于 2025-03-10 09:25:23 发布

米斯特龙_ZXL

最新推荐文章于 2025-03-10 09:25:23 发布

阅读量4.2k

点赞数 14

分类专栏： TensorRT教程文章标签：深度学习人工智能神经网络 tensorflow pytorch

本文链接：https://blog.csdn.net/weixin_41562691/article/details/118277344

版权

TensorRT教程专栏收录该内容

20 篇文章

订阅专栏

TensorRT优化原理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kTFG1B5M-1624787358269)(1-1 TensorRT精华总结.assets/TensorRT-optimize-method.png)]

TensorRT优化方法主要有以下几种方式，最主要的是前面两种。

1、层间融合或张量融合----在构建engine阶段完成

算子融合（网络层合并）：如下图左侧是GoogLeNetInception模块的计算图。这个结构中有很多层，在部署模型推理时，这每一层的运算操作都是由GPU完成的，但实际上是GPU通过启动不同的CUDA（Compute unified device architecture）核心来完成计算的，CUDA核心计算张量的速度是很快的，但是往往大量的时间是浪费在CUDA核心的启动和对每一层输入/输出张量的读写操作上面，这造成了内存带宽的瓶颈和GPU资源的浪费。TensorRT通过对层间的横向或纵向合并==（合并后的结构称为CBR，意指 convolution, bias, and ReLU layers are fused to form a single layer）==，使得层的数量大大减少。横向合并可以把卷积、偏置和激活层合并成一个CBR结构，只占用一个CUDA核心。纵向合并可以把结构相同，但是权值不同的层合并成一个更宽的层，也只占用一个CUDA核心。合并之后的计算图（图4右侧）的层次更少了，占用的CUDA核心数也少了，因此整个模型结构会更小，更快，更高效。

concat 层的消除：对于 channel 维度的 concat 层，TensorRT 通过非拷贝方式将层输出定向到正确的内存地址来消除 concat 层，从而减少内存访存次数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PjJGxBSB-1624787337466)(1-1 TensorRT精华总结.assets/TensorRT-layer-fusion.png)]

2、低精度量化----在构建engine阶段完成

大部分深度学习框架在训练神经网络时网络中的张量（Tensor）都是32位浮点数的精度（Full 32-bit precision，FP32），一旦网络训练完成，在部署推理的过程中由于不需要反向传播，完全可以适当降低数据精度，比如降为FP16或INT8的精度。更低的数据精度将会使得内存占用和延迟更低，模型体积更小。

如下表为不同精度的动态范围：

Precision	Dynamic Range
FP32	−3.4×1038 +3.4×1038
FP16	−65504 +65504
INT8	−128 +127

INT8只有256个不同的数值，使用INT8来表示 FP32精度的数值，肯定会丢失信息，造成性能下降。不过TensorRT会提供完全自动化的校准（Calibration ）过程，会以最好的匹配性能将FP32精度的数据降低为INT8精度，最小化性能损失。关于校准过程，后面会专门做一个探究。

3、CUDA核自动调整----在推理阶段完成

网络模型在推理计算时，是调用GPU的CUDA核进行计算的。TensorRT可以针对不同的算法，不同的网络模型，不同的GPU平台，进行 CUDA核的调整（包括：怎么调用 CUDA 核心、怎么分配、每个 block 里面分配多少个线程、每个 grid 里面有多少个 block。），以保证当前模型在特定平台上以最优性能计算。

不同的硬件TensorRT 都会做对应的优化，得到优化后的 engine。