TensorRT使开发人员能够导入,校准,生成和部署优化的网络。网络可以直接从Caffe导入,也可以通过UFF或ONNX格式从其他框架导入。也可以通过实例化各个图层并直接设置参数和权重以编程方式创建它们。用户还可以使用插件界面通过TensorRT运行自定义图层。
一、 TensorRT核心库中的关键接口:
1. 网络定义(Network Definition):网络定义接口为应用程序提供了指定网络定义的方法。可以指定输入和输出张量,可以添加层,并且有一个用于配置每种支持的层类型的界面。以及卷积层和循环层等层类型,以及Plugin层类型都允许应用程序实现TensorRT本身不支持的功能
2. 优化配置文件(Optimization Profile):优化配置文件指定对动态维度的约束
3. 构建器配置(Builder Configuration):指定用于创建引擎的详细信息。它允许应用程序指定优化配置文件,最大工作空间大小,最小可接受的精度水平,用于自动调整的定时迭代计数以及用于量化网络以8位精度运行的接口。
4. 构建器(Builder):构建器接口允许根据网络定义和构建器配置创建优化的引擎
5. 引擎(Engine):Engine接口允许应用程序执行推理。它支持同步和异步执行,概要分析以及枚举和查询引擎输入和输出的绑定。单引擎可以具有多个执行上下文,从而允许将一组训练有素的参数用于同时执行多个批次
6. 解析器(Parser):Caffe Parser、UFF Parser、ONNX Parser
二、 TensorRT C ++ API 必要步骤:
1. 从模型中创建TensorRT网络定义
2. 调用TensorRT构建器以从网络创建优化的运行时引擎
3. 序列化和反序列化引擎,以便可以在运行时快速重新创建它
4. 向引擎提供数据以进行推理
三、 TensorRT C ++ 步骤:
1. 在C ++中实例化TensorRT对象
为了运行推理,需要用到接口IExecutionContext,为了创建一个IExecutionContext类型的对象,首先需要创建ICudaEngine 类型的对象(engine).
创建引擎的两种方式:
- 通过用户模型中的网络定义创建。在这种情况下,可以选择对引擎进行序列化并保存以供以后使用
- 通过从磁盘读取序列化的引擎。与创建网络定义并从中构建引擎相比,这可以节省大量时间
2. 在C ++中创建网络定义
- TensorRT 解析器库导入模型(以ONNX为例,其余还有UFF和Caffe)
1.创建构建器和网络:
IBuilder* builder = createInferBuilder(gLogger);
const auto explicitBatch = 1U << static_cast<uint32_t>(NetworkDefinitionCreationFlag::kEXPLICIT_BATCH);
INetworkDefinition* network = builder->createNetworkV2(explicitBatch);
2.创建ONNX解析器:
nvonnxparser::IParser* parser =
nvonnxparser::createParser(*network, gLogger);
3.解析模型:
parser->parseFromFile(onnx_filename, ILogger::Severity::kWARNING);
for (int i = 0; i < parser.getNbErrors(); ++i)
{
std::cout << parser->getError(i)->desc() << std::endl;
}
- TensorRT API定义模型,通过API调用,以定义网络中的每一层,并为模型的训练参数实现自己的导入机制
1.创建构建器和网络:
IBuilder* builder = createInferBuilder(gLogger);
INetworkDefinition* network = builder->createNetworkV2(1U << static_cast<uint32_t>(NetworkDefinitionCreationFlag::kEXPLICIT_BATCH));
2.创建网络的各种层(以sampleMNISTAPI为例)
auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{-1, 1, INPUT_H, INPUT_W});
auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);
conv1->setStride(DimsHW{1, 1});
auto pool1 = network->addPooling(*conv1->getOutput(0), PoolingType::kMAX, DimsHW{2, 2});
pool1->setStride(DimsHW{2, 2});
auto ip1 = network->addFullyConnected(*pool1->getOutput(0), 500, weightMap["ip1filter"], weightMap["ip1bias"]);
auto relu1 = network->addActivation(*ip1->getOutput(0), ActivationType::kRELU);
auto prob = network->addSoftMax(*relu1->getOutput(0));
prob->getOutput(0)->setName(OUTPUT_BLOB_NAME);
network->markOutput(*prob->getOutput(0));
3.在C++中构建引擎
调用TensorRT构建器以创建优化的实时运行。生成构建器的功能之一是搜索其CUDA内核目录,以获取可用的最快实现,因此,有必要使用与运行优化引擎的GPU相同的GPU进行构建。
通过调用IBuilderConfig设置属性,来控制诸如网络运行的精度以及自动调整参数(例如,确定哪个内核最快时,TensorRT对每个内核计时的次数),更多的迭代会导致更长的运行时间,可以查询构建器,以了解硬件固有支持哪些降低精度的类型。一个特别重要的属性是最大工作空间大小。网络层的算法通常需要临时工作空间。此参数限制网络中任何层可以使用的最大大小。如果提供的初始空间不足,则TensorRT可能无法找到给定层的实现。
1、使用builder对象构建引擎
IBuilderConfig* config = builder->createBuilderConfig();
config->setMaxWorkspaceSize(1 << 20);
ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
2、如果使用网络、构建器和解析器,则省去其中一个。
parser->destroy();
network->destroy();
config->destroy();
builder->destroy();
4.在C++中序列化模型
序列化,就是将引擎转化为一种格式,以便存储并在以后用于推理。如果要用于推理,你只需要反序列化引擎。序列化和反序列化是可选的。由于从网络定义中创建一个引擎是很耗时的,生成引擎后进行序列化并保存至本地,在运行推理时将其反序列化,从而避免在每次应用程序重新运行时重建引擎。因此,在引擎建立后,用户通常希望将其序列化,以便以后使用。
1、作为事先的脱机步骤运行构建器,然后序列化
IHostMemory *serializedModel = engine->serialize();
serializedModel->destroy();
2、创建运行时对象以反序列化:
IRuntime* runtime = createInferRuntime(gLogger);
ICudaEngine* engine = runtime->deserializeCudaEngine(modelData, modelSize, nullptr);
5.在C++中执行推理
有了引擎文件,以下步骤说明如何在C++中执行推理
1、创建一些空间去存储中间激活值,由于引擎保存了网络定义和训练参数,因此需要额外的空间,这些是在执行上下文中保存的。
IExecutionContext *context = engine->createExecutionContext();
引擎可以具有多个执行上下文,从而允许将一组权重用于多个重叠的推理任务。例如,可以使用一个引擎和每个流的一个上下文在并行的CUDA流中处理图像。每个上下文将在与引擎相同的GPU上创建。
2、使用输入和输出Blob名称获取对应的输入和输出索引
int inputIndex = engine->getBindingIndex(INPUT_BLOB_NAME);
int outputIndex = engine->getBindingIndex(OUTPUT_BLOB_NAME);
3、使用这些索引,设置一个缓冲区数组,该数组指向GPU上的输入和输出缓冲区:
void* buffers[2];
buffers[inputIndex] = inputBuffer;
buffers[outputIndex] = outputBuffer;
4、TensorRT执行通常是异步的,因此 入队enqueue CUDA流上的内核:
context->enqueueV2(buffers, stream, nullptr);
这是常见的 入队enqueue 内核之前和之后的异步memcpy()从GPU移动数据(如果尚未存在)。enqueueV2()的最后一个参数是一个可选的CUDA 事件,当消耗完输入缓冲区并且可以安全地重用它们的内存时,将发出信号。
要确定何时完成内核(可能还包括memcpy()),使用标准的CUDA同步机制,例如事件或在流上等待。