TensorRT 加速部署

最新推荐文章于 2024-07-04 15:58:32 发布

Mrrunsen

最新推荐文章于 2024-07-04 15:58:32 发布

阅读量2.8k

点赞数 1

分类专栏： AI模型压缩、加速及移动端部署文章标签：开发语言 gnu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mrrunsen/article/details/122870724

版权

AI模型压缩、加速及移动端部署专栏收录该内容

17 篇文章 38 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

NVIDIA TensorRT 是一款用于深度学习推理的高性能工具包，通过INT8和FP16计算及网络结构优化提升GPU运行效率，加速模型部署。本文介绍了TensorRT的加速原理、步骤，包括模型解析、垂直和水平整合网络结构，以及TensorRT在Windows系统下C++部署YOLOv5的流程。

摘要由CSDN通过智能技术生成

NVIDIA TensorRT 是用于高性能深度学习推理的软件开发工具包，能够以更高的吞吐量和更低的延迟运行深度学习模型。借助 TensorRT，可以优化当前主要框架（例如 Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet 和 PyTorch）中训练的神经网络模型，并将模型部署到大规模数据中心、嵌入式或产品平台中。在准确度几乎不损失的情况下，可以大大提升模型在端侧、边缘侧以及云端的推理速度，有利于产品部署。

（1）TensorRT 加速原理

TensorRT 主要通过两方面加速神经网络的运行速度。首先是 TensorRT 支持INT8 和 FP16 的计算。在训练深度学习算法网络时，通常会采取 FP32（全精度）进行计算。但是用 TensorRT 部署神经网络进行推理时则采用相对较低的精度，从而达到加速推断的目的。更为重要的是 TensorRT 对于网络结构进行了重构和优化，从而提高 GPU 运行效率，实现加速计算的目的。

（2）TensorRT 加速步骤

1）解析卷积神经网络模型，TensorRT 通过将神经网络中无用的输出层消除以减小计算。原始网络模型如图 14 所示。

2）垂直整合网络结构，垂直整合是指将目前主流神经网络的 CONV、BN、

Leaky Relu 三个层融合为了一个 CBL 层，实现从图 14 原始网络结构到图 15所示网络结构的转变。

3）水平组合网络结构，水平组合是指将输入为相同张量和执行相同操作的层

融合一起，如图 16 所示将 3 个 1×1 的 CBL 融合为一个的 1×1 的 CBL；

了解本专栏

超级会员免费看

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
TensorRT 加速部署

NVIDIA TensorRT 是用于高性能深度学习推理的软件开发工具包，能够以更高的吞吐量和更低的延迟运行深度学习模型。借助 TensorRT，可以优化当前主要框架（例如 Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet 和 PyTorch）中训练的神经网络模型，并将模型部署到大规模数据中心、嵌入式或产品平台中。在准确度几乎不损失的情况下，可以大大提升模型在端侧、边缘侧以及云端的推理速度，有利于产品部署。（1）TensorRT 加速原理 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mrrunsen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。