0. 了解TensorRT
https://zhuanlan.zhihu.com/p/371239130
TensorRT 是由Nvidia公司推出的一款用于深度学习模型推理加速的SDK,其支持C++和python语言编译。TensorRT可以用于部署基于深度学习的应用程序,比如图像分类、分割和目标检测等,在运行时可提供GPU的最大推理吞吐量和运行效率。TensorRT对神经网络模型的加速主要分为两个方面。
(1) 对神经网络的计算方式进行量化
一般的神经网络在训练完成后模型的参数以32位浮点型存储(FP32),这是因为网络在进行训练时,更高的存储精度可以获得更准确的损失函数值,从而帮助整个网络进行权重更新。但网络进行推理时,大多数应用场景不需要用到32位的精度。因此,TensorRT提供了将模型的存储参数类型调整为16位浮点型(FP16)或8位整型(INT8)的功能。通过这样的量化可以减少参数用于计算的时间,达到神经网络的推理加速目的。
(2) 对神经网络的结构进行重构和优化
一般为了最大程度地提取输入信号的特征,神经网络在设计时会主观地将网络层数增多,并增加跳转链接、上下采样等操作。而这些增加的步骤是否对解决实际问题有帮助还无法在网络训练过程中预知。因此,TensorRT提供了对训练后的模型进行网络结构优化和重构的功能。具体的,TensorRT可以通过解析网络模型达到消除网络中无用的输出层,从而达到精简模型并加速推理的效果。同时,TensorRT可以对网络中的各层进行垂直、水平整合,即将神经网络中的卷积层、激活函数层、批量归一化层等进行融合,还可以将有相同操作的网络层融合。如图3.22所示,显示了一组简单网络(a),经过垂直重构(b)、水平重构©后得到的整合网络(d)。
1. 加速方法
不同的深度学习平台(pytorch,tensorFlow,caffe等)在用TensorRT进行实际网络部署时存在一定的差异。我们仅以本研究的python + pytorch平台进行实例说明。全部过程可分为5个步骤,如图3.23所示。
图3.23 神经网络模型进行TensorRT加速的步骤
a) 使用pytorch训练神经网络得到pt文件。这个过程包含了神经网络的构建、训练数据的加载、训练参数的调整等。 最后,利用pytorch平台训练完成神经网络模型后,将模型存储为pt文件格式。
b) 将pt文件转化为onnx文件格式。Onnx是一种用于神经网络模型表示的标准格式,其可使不同深度学习平台构建的网络进行转换。图3.24显示了我们用于模型转换的核心代码。
c) 解析onnx文件获取trt推理引擎。该过程包含了模型参数格式变换(可以选择转化为FP16或INT8),以及网络的水平、垂直重构等优化。
d) 为trt引擎的输入、输出、模型等分配GPU物理空间。
e) 将待推理的输入数据放入trt引擎,并获得推理结果。
2. 环境配置
Ubuntu18.04+cuda10.0+cudnn7.6.5安装Tensorrt7.0.0.11以及对应版本的onnx-tensorrt
-
创建一个虚拟环境
查看: conda info -e 创建:conda create -n 环境名 ,如,conda create -n rcnn python=3.6 删除:conda remove -n 环境名 --all
-
conda虚拟环境下安装cuda和cudnn
https://www.cxyzjd.com/article/weixin_40588315/85881338 -
安装pytorch
https://download.pytorch.org/whl/torch_stable.html -
卸载TensorRT
https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#uninstalling
http://www.manongjc.com/detail/25-kzcdjwmnqefinta.html -
TensorRT的安装
https://www.cxyzjd.com/article/mathlxj/107810548
https://developer.nvidia.com/nvidia-tensorrt-download -
Ubuntu下各种软件的安装和卸载
https://blog.csdn.net/BigData_Mining/article/details/94331552
3. TensorRT与Pytorch的速度比较
https://zhuanlan.zhihu.com/p/88318324
https://blog.csdn.net/qq_33287871/article/details/115820116
https://blog.csdn.net/qq_23116521/article/details/107617442
- AttributeError: module ‘tensorrt’ has no attribute ‘logger’
TRT_LOGGER = trt.Logger() 改为: TRT_LOGGER = trt.Logger(trt.Logger.INFO) # 或者 trt.Logger(trt.Logger.WARNING)
- AttributeError: ‘NoneType’ object has no attribute ‘create_execution_context’
版本对应:TensorRT6.0 对应的cuda是10.2.0 cudnn是7.6.3
待更。。。