TensorRT学习

TensorRT使开发人员能够导入,校准,生成和部署优化的网络。网络可以直接从Caffe导入,也可以通过UFF或ONNX格式从其他框架导入。也可以通过实例化各个图层并直接设置参数和权重以编程方式创建它们。用户还可以使用插件界面通过TensorRT运行自定义图层。

一、 TensorRT核心库中的关键接口:

1. 网络定义(Network Definition):网络定义接口为应用程序提供了指定网络定义的方法。可以指定输入和输出张量,可以添加层,并且有一个用于配置每种支持的层类型的界面。以及卷积层和循环层等层类型,以及Plugin层类型都允许应用程序实现TensorRT本身不支持的功能
2. 优化配置文件(Optimization Profile):优化配置文件指定对动态维度的约束
3. 构建器配置(Builder Configuration):指定用于创建引擎的详细信息。它允许应用程序指定优化配置文件,最大工作空间大小,最小可接受的精度水平,用于自动调整的定时迭代计数以及用于量化网络以8位精度运行的接口。
4. 构建器(Builder):构建器接口允许根据网络定义和构建器配置创建优化的引擎
5. 引擎(Engine):Engine接口允许应用程序执行推理。它支持同步和异步执行,概要分析以及枚举和查询引擎输入和输出的绑定。单引擎可以具有多个执行上下文,从而允许将一组训练有素的参数用于同时执行多个批次
6. 解析器(Parser):Caffe Parser、UFF Parser、ONNX Parser

二、 TensorRT C ++ API 必要步骤:

1. 从模型中创建TensorRT网络定义
2. 调用TensorRT构建器以从网络创建优化的运行时引擎
3. 序列化和反序列化引擎,以便可以在运行时快速重新创建它
4. 向引擎提供数据以进行推理

三、 TensorRT C ++ 步骤:

1. 在C ++中实例化TensorRT对象

为了运行推理,需要用到接口IExecutionContext,为了创建一个IExecutionContext类型的对象,首先需要创建ICudaEngine 类型的对象(engine).
创建引擎的两种方式:
- 通过用户模型中的网络定义创建。在这种情况下,可以选择对引擎进行序列化并保存以供以后使用
- 通过从磁盘读取序列化的引擎。与创建网络定义并从中构建引擎相比,这可以节省大量时间

2. 在C ++中创建网络定义

- TensorRT 解析器库导入模型(以ONNX为例,其余还有UFF和Caffe)
1.创建构建器和网络:
IBuilder* builder = createInferBuilder(gLogger);
const auto explicitBatch = 1U << static_cast<uint32_t>(NetworkDefinitionCreationFlag::kEXPLICIT_BATCH);  
INetworkDefinition* network = builder->createNetworkV2(explicitBatch);
2.创建ONNX解析器:
nvonnxparser::IParser* parser = 
nvonnxparser::createParser(*network, gLogger);
3.解析模型:
parser->parseFromFile(onnx_filename, ILogger::Severity::kWARNING);
	for (int i = 0; i < parser.getNbErrors(); ++i)
	{
		std::cout << parser->getError(i)->desc() << std::endl;
	}
- TensorRT API定义模型,通过API调用,以定义网络中的每一层,并为模型的训练参数实现自己的导入机制
1.创建构建器和网络:
IBuilder* builder = createInferBuilder(gLogger);
INetworkDefinition* network = builder->createNetworkV2(1U << static_cast<uint32_t>(NetworkDefinitionCreationFlag::kEXPLICIT_BATCH));
2.创建网络的各种层(以sampleMNISTAPI为例)
//  将输入层(包括动态批处理)和输入维添加到网络中。一个网络可以有多个输入,
auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{-1, 1, INPUT_H, INPUT_W});
// 添加具有隐藏层输入节点,步幅和权重的卷积层以进行滤波和偏置,传递到TensorRT层的权重在主机内存中
auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);
conv1->setStride(DimsHW{1, 1});
// 添加池化层:
auto pool1 = network->addPooling(*conv1->getOutput(0), PoolingType::kMAX, DimsHW{2, 2});
pool1->setStride(DimsHW{2, 2});
// 添加FullyConnected和Activation层:
auto ip1 = network->addFullyConnected(*pool1->getOutput(0), 500, weightMap["ip1filter"], weightMap["ip1bias"]);
auto relu1 = network->addActivation(*ip1->getOutput(0), ActivationType::kRELU);
// 添加SoftMax层以计算最终概率并将其设置为输出:
auto prob = network->addSoftMax(*relu1->getOutput(0));
prob->getOutput(0)->setName(OUTPUT_BLOB_NAME);
// 标记输出:
network->markOutput(*prob->getOutput(0));

3.在C++中构建引擎

调用TensorRT构建器以创建优化的实时运行。生成构建器的功能之一是搜索其CUDA内核目录,以获取可用的最快实现,因此,有必要使用与运行优化引擎的GPU相同的GPU进行构建。
通过调用IBuilderConfig设置属性,来控制诸如网络运行的精度以及自动调整参数(例如,确定哪个内核最快时,TensorRT对每个内核计时的次数),更多的迭代会导致更长的运行时间,可以查询构建器,以了解硬件固有支持哪些降低精度的类型。一个特别重要的属性是最大工作空间大小。网络层的算法通常需要临时工作空间。此参数限制网络中任何层可以使用的最大大小。如果提供的初始空间不足,则TensorRT可能无法找到给定层的实现。
1、使用builder对象构建引擎
IBuilderConfig* config = builder->createBuilderConfig();
config->setMaxWorkspaceSize(1 << 20);
ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
2、如果使用网络、构建器和解析器,则省去其中一个。
parser->destroy();
network->destroy();
config->destroy();
builder->destroy();

4.在C++中序列化模型

序列化,就是将引擎转化为一种格式,以便存储并在以后用于推理。如果要用于推理,你只需要反序列化引擎。序列化和反序列化是可选的。由于从网络定义中创建一个引擎是很耗时的,生成引擎后进行序列化并保存至本地,在运行推理时将其反序列化,从而避免在每次应用程序重新运行时重建引擎。因此,在引擎建立后,用户通常希望将其序列化,以便以后使用。
1、作为事先的脱机步骤运行构建器,然后序列化
IHostMemory *serializedModel = engine->serialize();
// store model to disk
// <…>
serializedModel->destroy();
2、创建运行时对象以反序列化:
IRuntime* runtime = createInferRuntime(gLogger);
ICudaEngine* engine = runtime->deserializeCudaEngine(modelData, modelSize, nullptr);

5.在C++中执行推理

有了引擎文件,以下步骤说明如何在C++中执行推理
1、创建一些空间去存储中间激活值,由于引擎保存了网络定义和训练参数,因此需要额外的空间,这些是在执行上下文中保存的。
IExecutionContext *context = engine->createExecutionContext();
引擎可以具有多个执行上下文,从而允许将一组权重用于多个重叠的推理任务。例如,可以使用一个引擎和每个流的一个上下文在并行的CUDA流中处理图像。每个上下文将在与引擎相同的GPU上创建。
2、使用输入和输出Blob名称获取对应的输入和输出索引
int inputIndex = engine->getBindingIndex(INPUT_BLOB_NAME);
int outputIndex = engine->getBindingIndex(OUTPUT_BLOB_NAME);
3、使用这些索引,设置一个缓冲区数组,该数组指向GPU上的输入和输出缓冲区:
void* buffers[2];
buffers[inputIndex] = inputBuffer;
buffers[outputIndex] = outputBuffer;
4、TensorRT执行通常是异步的,因此 入队enqueue CUDA流上的内核:
context->enqueueV2(buffers, stream, nullptr);
这是常见的 入队enqueue 内核之前和之后的异步memcpy()从GPU移动数据(如果尚未存在)。enqueueV2()的最后一个参数是一个可选的CUDA 事件,当消耗完输入缓冲区并且可以安全地重用它们的内存时,将发出信号。
要确定何时完成内核(可能还包括memcpy()),使用标准的CUDA同步机制,例如事件或在流上等待。
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
TensorRT是NVIDIA推出的一个高性能深度学习推理优化器和运行时库。它可以将训练好的深度学习模型转换为高效的推理引擎,以提高推理速度和减少内存占用。以下是一个学习TensorRT的路线: 1. 了解深度学习和推理加速:首先,你需要对深度学习的基本概念有一定的了解,包括神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。此外,你还需要了解为什么需要推理加速以及TensorRT如何提供高性能的推理加速。 2. 学习TensorRT的基本概念和架构:深入了解TensorRT的基本概念和架构,包括TensorRT的工作原理、网络定义和优化、推理引擎的创建和执行等。 3. 掌握TensorRT的安装和配置:学习如何安装和配置TensorRT,包括下载和安装TensorRT的步骤,以及与其他深度学习框架(如TensorFlow、PyTorch)的集成。 4. 学习TensorRT的模型优化和转换:了解如何使用TensorRT优化和转换深度学习模型,以提高推理性能。这包括模型的量化、剪枝、融合等技术。 5. 学习TensorRT的推理加速技术:掌握TensorRT提供的推理加速技术,包括网络层的融合、内存管理、并行计算等。了解如何使用这些技术来提高推理性能。 6. 实践TensorRT的模型部署:通过实践项目,将训练好的深度学习模型部署到TensorRT中,并进行推理加速。这可以帮助你更好地理解TensorRT的使用和优化技巧。 7. 深入研究TensorRT的高级特性:进一步学习TensorRT的高级特性,如动态形状支持、多个推理引擎的并行执行、多个GPU的并行推理等。 8. 跟踪TensorRT的最新发展:持续关注TensorRT的最新发展和更新,了解新功能和改进,以保持对TensorRT学习和使用的最新状态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大鹏要高飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值