TensorRT加速的原因：量化+网络结构优化

最新推荐文章于 2025-03-12 14:05:19 发布

???/cy

最新推荐文章于 2025-03-12 14:05:19 发布

阅读量462

点赞数 1

分类专栏：深度学习基础知识文章标签： TensorRT Nvidia AI AI部署

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45842681/article/details/134176553

版权

深度学习基础知识专栏收录该内容

17 篇文章

订阅专栏

文章目录

1. TensorRT 简介
2. TensorRT 加速的原理
- 量化
- 网络结构优化
3. TensorRT 的工作流程
- TensorRT引擎的构建：Build
- TensorRT引擎的推理：Infer

1. TensorRT 简介

TensorRT可以帮助你把训练好的AI模型，部署到边端Nvidia的设备，并实现对模型的量化与加速。
TensorRT基于CUDA和cudnn

CUDA看作是一个工作台，上面配有很多工具，如锤子、螺丝刀等。

cuDNN是基于CUDA的深度学习GPU加速库，它就是个锤子。

CUDA这个工作台买来的时候，并没有送锤子。
想要在CUDA上运行深度神经网络，就要安装cuDNN，这样才能使GPU进行深度神经网络的工作，工作速度相较CPU快很多。
请添加图片描述

2. TensorRT 加速的原理

量化

TensorRT可以对模型进行int8，float16的量化，通过在**减少计算量和保持精度 **之间达到一个理想的平衡点。

网络结构优化

TensorRT同时对网络结构进行了重构和优化

通过解析模型，将网络中无用的输出层消除以减小计算。
对网络结构的垂直整合，举个例子，将CONV, BN, RELU 三个层融合在了一起。
对网络结构的水平整合。将输入为相同的张量 和执行 相同操作 的层融合在一起。
对 CONCAT 层的输出直接送入下面的操作，不单独进行concat后再进行计算，减少了一次传输吞吐

3. TensorRT 的工作流程

分为两个流程：构建期，推理运行期

TensorRT引擎的构建：Build

前期准备Logger, builder, config
创建Network（计算图）
生成序列化网络引擎

TensorRT引擎的推理：Infer

反序列化引擎
Buffer的相关准备
执行推理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。