【TensorRT】TensorRT的学习

只搬烫手的砖

已于 2022-08-03 09:55:35 修改

阅读量534

点赞数

文章标签：神经网络深度学习 TensorRT

于 2022-01-15 14:09:00 首次发布

本文链接：https://blog.csdn.net/qq_44747572/article/details/122509309

版权

文章目录

0. 了解TensorRT
1. 加速方法
2. 环境配置
3. TensorRT与Pytorch的速度比较

0. 了解TensorRT

https://zhuanlan.zhihu.com/p/371239130

TensorRT 是由Nvidia公司推出的一款用于深度学习模型推理加速的SDK，其支持C++和python语言编译。TensorRT可以用于部署基于深度学习的应用程序，比如图像分类、分割和目标检测等，在运行时可提供GPU的最大推理吞吐量和运行效率。TensorRT对神经网络模型的加速主要分为两个方面。
(1) 对神经网络的计算方式进行量化
一般的神经网络在训练完成后模型的参数以32位浮点型存储(FP32)，这是因为网络在进行训练时，更高的存储精度可以获得更准确的损失函数值，从而帮助整个网络进行权重更新。但网络进行推理时，大多数应用场景不需要用到32位的精度。因此，TensorRT提供了将模型的存储参数类型调整为16位浮点型(FP16)或8位整型(INT8)的功能。通过这样的量化可以减少参数用于计算的时间，达到神经网络的推理加速目的。
(2) 对神经网络的结构进行重构和优化
一般为了最大程度地提取输入信号的特征，神经网络在设计时会主观地将网络层数增多，并增加跳转链接、上下采样等操作。而这些增加的步骤是否对解决实际问题有帮助还无法在网络训练过程中预知。因此，TensorRT提供了对训练后的模型进行网络结构优化和重构的功能。具体的，TensorRT可以通过解析网络模型达到消除网络中无用的输出层，从而达到精简模型并加速推理的效果。同时，TensorRT可以对网络中的各层进行垂直、水平整合，即将神经网络中的卷积层、激活函数层、批量归一化层等进行融合，还可以将有相同操作的网络层融合。如图3.22所示，显示了一组简单网络(a)，经过垂直重构(b)、水平重构©后得到的整合网络(d)。

图3.22 TensorRT进行网络重构的过程

1. 加速方法

不同的深度学习平台（pytorch，tensorFlow，caffe等）在用TensorRT进行实际网络部署时存在一定的差异。我们仅以本研究的python + pytorch平台进行实例说明。全部过程可分为5个步骤，如图3.23所示。

图3.23 神经网络模型进行TensorRT加速的步骤

a) 使用pytorch训练神经网络得到pt文件。这个过程包含了神经网络的构建、训练数据的加载、训练参数的调整等。最后，利用pytorch平台训练完成神经网络模型后，将模型存储为pt文件格式。
b) 将pt文件转化为onnx文件格式。Onnx是一种用于神经网络模型表示的标准格式，其可使不同深度学习平台构建的网络进行转换。图3.24显示了我们用于模型转换的核心代码。

图3.24 pt转onnx格式的核心代码

c) 解析onnx文件获取trt推理引擎。该过程包含了模型参数格式变换(可以选择转化为FP16或INT8)，以及网络的水平、垂直重构等优化。
d) 为trt引擎的输入、输出、模型等分配GPU物理空间。
e) 将待推理的输入数据放入trt引擎，并获得推理结果。

2. 环境配置

Ubuntu18.04+cuda10.0+cudnn7.6.5安装Tensorrt7.0.0.11以及对应版本的onnx-tensorrt

创建一个虚拟环境

查看： conda info -e 
创建：conda create -n 环境名 ，如，conda create -n rcnn python=3.6
删除：conda remove -n 环境名 --all

conda虚拟环境下安装cuda和cudnn
https://www.cxyzjd.com/article/weixin_40588315/85881338
安装pytorch
https://download.pytorch.org/whl/torch_stable.html
卸载TensorRT
https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#uninstalling
http://www.manongjc.com/detail/25-kzcdjwmnqefinta.html
TensorRT的安装
https://www.cxyzjd.com/article/mathlxj/107810548
https://developer.nvidia.com/nvidia-tensorrt-download
Ubuntu下各种软件的安装和卸载
https://blog.csdn.net/BigData_Mining/article/details/94331552

3. TensorRT与Pytorch的速度比较

https://zhuanlan.zhihu.com/p/88318324
https://blog.csdn.net/qq_33287871/article/details/115820116
https://blog.csdn.net/qq_23116521/article/details/107617442

AttributeError: module ‘tensorrt’ has no attribute ‘logger’

TRT_LOGGER = trt.Logger()
改为：
TRT_LOGGER = trt.Logger(trt.Logger.INFO)  # 或者 trt.Logger(trt.Logger.WARNING)

AttributeError: ‘NoneType’ object has no attribute ‘create_execution_context’
```
版本对应：TensorRT6.0 对应的cuda是10.2.0 cudnn是7.6.3
```

待更。。。

只搬烫手的砖

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
【TensorRT】TensorRT的学习

文章目录基于TensorRT的神经网络加速方法1 TensorRT介绍2. 加速方法基于TensorRT的神经网络加速方法我们计算了视网膜OCT成像中每张图像的采集速度约为0.0083s。这种微秒级的成像速度体现了OCT技术的实时成像特点。但当图像采集完成后，需要传输到计算机进行运动补偿、图像降噪。经过该过程后，上位机显示OCT图像的时间将会升高到秒级，甚至更长。目前，常用的运算加速方法是将程序移植到GPU的CUDA核心。但传统的运动补偿方法，存在步骤冗余、补偿精度低等问题，不能发挥出GPU的高并行运算
复制链接

扫一扫