TensorRT-介绍

1 简介
TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。

TensorRT 是一个C++库,从 TensorRT 3 开始提供C++ API和Python API,主要用来针对 NVIDIA GPU进行 高性能推理(Inference)加速。

TensorRT 之前称为GIE。

关于推理(Inference):
在这里插入图片描述
在这里插入图片描述
由以上两张图可以很清楚的看出,训练(training)和 推理(inference)的区别:

训练(training)包含了前向传播和后向传播两个阶段,针对的是训练集。 训练时通过误差反向传播来不断修改网络权值(weights)。
推理(inference)只包含前向传播一个阶段,针对的是除了训练集之外的新数据。可以是测试集,但不完全是,更多的是整个数据集之外的数据。其实就是针对新数据进行预测,预测时,速度是一个很重要的因素。

一般的深度学习项目,训练时为了加快速度,会使用多GPU分布式训练。但在部署推理时,为了降低成本,往往使用单个GPU机器甚至嵌入式平台(比如 NVIDIA Jetson)进行部署,部署端也要有与训练时相同的深度学习环境,如caffe,TensorFlow等。

由于训练的网络模型可能会很大(比如,inception,resnet等),参数很多,而且部署端的机器性能存在差异,就会导致推理速度慢,延迟高。这对于那些高实时性的应用场合是致命的,比如自动驾驶要求实时目标检测,目标追踪等。

所以为了提高部署推理的速度,出现了很多轻量级神经网络,比如squeezenet,mobilenet,shufflenet等。基本做法都是基于现有的经典模型提出一种新的模型结构,然后用这些改造过的模型重新训练,再重新部署。

而tensorRT 则是对训练好的模型进行优化。 **tensorRT就只是 推理优化器。**当你的网络训练完之后,可以将训练模型文件直接丢进tensorRT中,而不再需要依赖深度学习框架(Caffe,TensorFlow等),如下
在这里插入图片描述
在这里插入图片描述
可以认为tensorRT是一个只有前向传播的深度学习框架,这个框架可以将 Caffe,TensorFlow的网络模型解析,然后与tensorRT中对应的层进行一一映射,把其他框架的模型统一全部 转换到tensorRT中,然后在tensorRT中可以针对NVIDIA自家GPU实施优化策略,并进行部署加速。

目前TensorRT4.0 几乎可以支持所有常用的深度学习框架,对于caffe和TensorFlow来说,tensorRT可以直接解析他们的网络模型;对于caffe2,pytorch,mxnet,chainer,CNTK等框架则是首先要将模型转为 ONNX 的通用深度学习模型,然后对ONNX模型做解析。而tensorflow和MATLAB已经将TensorRT集成到框架中去了
ONNX(Open Neural Network Exchange )是微软和Facebook携手开发的开放式神经网络交换工具,也就是说不管用什么框架训练,只要转换为ONNX模型,就可以放在其他框架上面去inference。这是一种统一的神经网络模型定义和保存方式,上面提到的除了tensorflow之外的其他框架官方应该都对onnx做了支持,而ONNX自己开发了对tensorflow的支持。从深度学习框架方面来说,这是各大厂商对抗谷歌tensorflow垄断地位的一种有效方式;从研究人员和开发者方面来说,这可以使开发者轻易地在不同机器学习工具之间进行转换,并为项目选择最好的组合方式,加快从研究到生产的速度。

TensorRT 是 NVIDIA 开发的一款深度学习优化框架,用于加速机器学习模型推理的速度并降低资源消耗。TreEXec 是 TensorRT 的一部分,它提供了一个高级 API 和动态执行引擎,允许用户编写自定义执行策略、调度算法以及操作组合,进一步提高推理性能。 ### TensorRT-8.5.1 中的 TreEXec 功能 在 TensorRT-8.5.1 版本中,TreEXec 给开发者提供了一系列工具和API,使其能够: 1. **自定义执行路径**:TreEXec 允许开发者基于输入数据和模型结构设计定制化的执行路径,这可以针对特定工作负载优化性能。 2. **动态调度**:通过 TreEXec,用户可以调整算子之间的依赖关系和执行顺序,使得在运行时可以根据实际的数据流和系统资源动态优化计算流程。 3. **算子融合**:TensorRT 可以自动将相邻的运算融合在一起,减少内存访问次数和计算延迟,这在 TreEXec 中可以进一步通过手动控制实现更精细的优化。 4. **灵活性和可移植性**:使用 TreEXec 编写的执行策略可以在多种硬件上运行,并支持不同类型的张量处理模式,包括单精度、半精度等。 ### 使用 TreEXec 的步骤 1. **构建 TensorRT Engine**:首先需要使用 ONNX 或 Caffe 等模型格式构建模型并在 TensorRT 中优化生成模型引擎。 2. **定义执行策略**:接下来,在工程中定义自定义的执行策略。这通常涉及编写 TreEXec 插件,其中包含具体的调度规则和操作组合逻辑。 3. **集成自定义策略到模型中**:最后,将自定义的执行策略应用到已优化的模型上,通过 TreEXec API 调整引擎的行为以适应特定的工作负载需求。 ### 相关问题: 1. 如何开始使用 TreEXec 进行模型优化? 2. TreEXec 对于哪种类型的应用场景特别有效? 3. TreEXec 是否支持与其他加速库或框架(如 OpenVINO、Intel MKL-DNN)的协同优化? 通过上述介绍和示例,希望您对 TensorRT-8.5.1 中的 TreEXec 有了基本的理解,并能开始探索如何将其应用于您的深度学习项目中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值